PDFファイルの文字の読み取り/OCR化 – WEB制作システムサポートチーム

スキャンしたPDFファイルなどに記述された文字をテキスト化したいときがありますが、
その場合OCR(光学文字認識/Optical Character Recognition)化する方法について。

ドキュメントなどをスキャンしてPDFファイル化した場合、テキストデータとして抽出する必要などがあります。テキストデータにするメリットは、コピーペーストなどが可能になるので、文章などを用意に転用しやすくなることです。

Adobe Acrobat Pro XI利用してPDFファイルの画像データとなった文章部分を、OCR化することでテキスト形式に変換する方法をまとめました。

1.まずPDFファイルを開く

2.[表示]→[ツール]→[テキスト認識]と選択します。

3.表示設定にもよりますが、画面の右側にテキスト認識のパネルメニューが表示されます。

4.OCR化したいファイルを検索対象から選択します。複数ページの場合はすべてのページを対象にします。

5.ダイアログが表示されるので、OKボタンを押すとクリップボードにOCR化情報が保存され、完了すると画像からテキストとして選択可能になります。

ただしOCR化はあくまで精度が高いわけではないので、細かい組数の文字などは類似する文字にご変換されることが多いので、結局は目で文字校正する必要があります。