スキャンしたデータしかないけど、文字データにしたい。

文字を選択できないPDFや画像フォーマットのファイルがある。
できるだけ文字データにして、内容を抜き取りたい。でも、全部を手で打ち込むのは面倒。

OCR機能のソフトウェアは、スキャナを購入すればついてくるものもあります。無料のものは性能が悪く、しっかり文字データ化してくれないものも多数あります。
かといって有料のものを購入するまでもない。。。

そんな時にGoogleが無料で出しているGoogle DriveにOCRの機能があり、かなり高性能なので良いです。
使い方を説明しましょう。

今回テストで使う画像はこちらです。スキャンしたデータですので、文字をコピーできない形式です。
芥川龍之介の「羅生門」の冒頭の文ので、かなり難しい漢字が多いです。
Google DriveのOCRがかなりの高機能。印刷スキャンを文字データ化したい。

ファイルをGoogle Driveにアップロードする

Google DriveのOCRがかなりの高機能。印刷スキャンを文字データ化したい。
画像データあるは、PDF形式のデータを用意します。できるだけ高画質のものが良いでしょう。そのファイルをGoogle Driveにアップロードします。
※Google Driveを使用するには、Googleのアカウントが必要です。

Google Driveはこちら

スキャンしたデータがどこかにいってしまうことがないように、フォルダを作ってその中に格納するのが良いでしょう。サンプルとして、「OCR」というフォルダを作成しました。

Googleアプリで開く

Googleアプリで開く

アップロードした画像ファイルまたは、PDF形式のファイルを右クリックして、「アプリで開く > Google ドキュメント」を選択。
自動的にOCRが始まり、画像の中のテキストを抽出してくれます。よく見るときちんと認識できていない文字があるようです。

抽出結果

抽出結果
縦書きの文章もきちんと横書きにして文字データ化してくれますので、非常に便利ですね。日本語対応がかなり進んでいるように思います。

精度の検証

一体どの程度の精度で、難しい漢字を読み取ってくれるのでしょうか?
「羅生門」は、通常使用する日本語と違い、かなり高等な漢字が使用されています。
結果としてかなり高等な文字までは読み取ることができるようです。しかしながら、あまりに難しくなるとOCRが誤認識してしまいます。これが結果です。

「羅生門」本文とスキャン画像のOCRとの比較

赤文字が誤り、青文字が訂正です。

ある日の暮方の事である。一人の下人が、羅生門の下で雨やみを待っていた。
 
広い門の下には、この男のほかに誰もいない。ただ、所々丹塗の剥げた、大きな円柱に、 幡蜂蟋蟀が一匹とまっている。羅生門が、朱雀大路にある以上は、この男のほかにも、雨やみ をする市女笠や烏帽子が、もう二三人はありそうなものである。それが、この男のほか には誰もいない。
 
何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか鱗護饑饉とか云う災が つづいて起った。そこで洛中のさびれ方は一通りではない。旧記によると、仏像や仏具を 打砕いて、その丹がついたり、金銀の箔がついたりした木を、路ばたにつみ重ねて、 料に売っていたと云う事である。洛中がその始末であるから、羅生門の修理などは、元よ り誰も捨てて顧る者がなかった。するとその荒れ果てたのをよい事にして、狐が棲む。 盗人が棲む。とうとうしまいには、引取り手のない死人を、この門へ持って来て、棄てて 行くと云う習慣さえ出来た。そこで、日の目が見えなくなると、誰でも気味を悪るがって、 この門の近所へは足ぶみをしない事になってしまったのである。
 
その代りまたがどこからか、たくさん集って来た。昼間見ると、そのが何羽となく 輪を描いて、高い尾のまわりをきながら、飛びまわっている。ことに門の上の空が、 夕焼けであかくなる時には、それが胡麻をまいたようにはっきり見えた。は、論、門 の上にある死人の肉を、みに来るのである。――もっとも今日は、刻限が遅いせいか、 一羽も見えない。ただ、所々、崩れかかった、そうしてその崩れ目に長い草のはえた石段 の上に、の糞が、点々と白くこびりついているのが見える。下人は七段ある石段の一番 上の段に、洗いざらした紺のの尻を据えて、右のに出来た、大きな面を気にしなが ら、ぼんやり、雨のふるのを眺めていた。
 
作者はさっき、「下人が雨やみを待っていた」と書いた。しかし、下人は雨がやんでも、 格別どうしようと云う当てはない。ふだんなら、論、主人の家へ帰る可きである。所 がその主人からは、四五日前に暇を出された。前にも書いたように、当時京都の町は一通 りならず衰微していた。今この下人が、永年、使われていた主人から、暇を出されたのも、 実はこの衰微の小さな余波にほかならない。だから「下人が雨やみを待っていた」と云う よりも「雨にふりこめられた下人が、行き所がなくて、途方にくれていた」と云う方が、 適当である。その上、今日の空模様も少からず、この平安朝の下人の Sentimentalisme に影響した。申の刻下りからふり出した雨は、いまだに上るけしき がない。そこで、下人は、何をおいても差当り明日の暮しをどうにかしようとして―― わばどうにもならない事を、どうにかしようとして、とりとめもない考えをたどりながら、 さっきから朱雀大路にふる雨の音を、聞くともなく聞いていたのである。
 
雨は、羅生門をつつんで、遠くから、ざあっと云う音をあつめて来る。夕闇は次第に空 を低くして、見上げると、門の屋根が、斜につき出したの先に、重たくうす暗い雲を支 えている。
 
どうにもならない事を、どうにかするためには、手段を選んでいるはない。選んでい れば、築土の下か、道ばたの土の上で、死をするばかりである。そうして、この門の上 へ持って来て、犬のように棄てられてしまうばかりである。選ばないとすれば――下人の 考えは、何度も同じ道を低した揚句に、やっとこの局所へ逢着した。しかしこの「すれ ば」は、いつまでたっても、結局「すれば」であった。下人は、手段を選ばないという事 を肯定しながらも、この「すれば」のかたをつけるために、当然、その後に来る可き「盗 人になるよりほかに仕方がない」と云う事を、

まとめ

難解な漢字は文字データ化しきれないものの、常用漢字はキレイに文字データ化してくれるようですね。また、無駄なスペースが入ってしまうようなので、スペースを一括置換で削除するとキレイなデータになりそうですね。
パンフレットの文章、マニュアルの文章など、一文字一文字を手で打ち直すのはかなり苦しい作業です。でも、このGoogleのOCRを使えば、簡単に文字データ化できそうです。困ったときに使ってみてはいかがでしょうか?
※羅生門は青空文庫なので、掲載に関して著作権の問題はありませんのでご安心ください。


Amazonで購入したおすすめ商品

お疲れ様です。パソコン仕事は体を痛めます。
長時間のパソコン仕事で、肩や目が痛い方はこちらがおすすめです。
快適な環境で仕事をしたいですね。


肩が上がらない。姿勢が悪くなる。
腕を広げてタイピングできるので、肩への負担が軽減されます。

目の奥が痛い!時に。
画面の色を損なうことなく、パソコンを長時間見るときに役立ちます。
見た目はエッジが効いている?ので、集中モードの時に。

ネットが遅くて困る!接続数足りてる?
パソコン・スマホ・タブレットを80台まで接続できてこの値段。