PDFをPHPでスクレイピングさせてみた話。 Wordが厄介

スクレイピングできるソースが増えれば、いろんな自動化が見えてきます。
PDFって…スクレイピングできるのだろうか。
スクレイピングさえ出来てしまえば、割と便利なところですよね。

ありました。

http://www.pdfparser.org/

こちらを使用して、スクレイピングをしてみました。


"require": {
"smalot/pdfparser": "*"
}

まずはコンポーサー的なので導入して、


use Smalot\PdfParser\Parser;
class somethning{
public function test(){
$parser=new Parser();
$pdf = $parser->parseFile($pdfurl);
$pages = $pdf->getPages();
$return=[];
foreach ($pages as $page) {
$texts=$page->getTextArray();
foreach($texts as $text){
$return[]=$text;
}
}
return $return;
}
}

これで、$returnにページの中のテキストを一行ずつ配列化できました。
詳しくはドキュメントを読んでみてください。

PDFをスクレイピングする上での問題

いくつかスクレイピングしてみて感じたのは、Word野郎め…ということです。

行の文字数やスペースを色々調整しているため、
改行やスペースが変なところに入っています。
それを修正しないとデータとしては使い物になりません。
しかも改行コードが普通の改行も文章中の改行も同じっぽいんですね。

とりあえず、半角スペースを消して、改行を消して…。
どうこうするしかありません。

なんとも厄介なことでしょう。

もう少し研究しなければいけません。

 
Share on Facebook

見積もり・問い合わせフォーム
ガチ株式会社へのお仕事ご依頼・お見積もりの問い合わせはこちらから送信ください。
ホームページ作成
PHP制作依頼
wordpressカスタマイズ依頼
システム開発見積もり依頼
飲食店販促サービス問い合わせ
求人
会ってみたい!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です