Scan&自炊

スキャナーを使ったOCR可能なPDFの作り方

自炊をして本や資料をPDFにすることで、大量の紙を簡単に持ち運びできます。

僕は、1度に大量にスキャンにかけることができるscansnapを使ってPDFにして持ち運んでいます。

今まで大量のファイルやケースに紙を入れ、分厚い本をいくつも持ち歩いていたのですが、それがiPadが1つで全てを持ち運ぶことができるようになりました。

本記事では、僕が教科書や本、資料などをOCR化したPDFを作り、手軽に持ち運びデータをすぐに取り出している方法を紹介します。

 

主な流れは以下の通りです。

  1. 紙(バラバラ)の原稿を用意する
  2. スキャナーで読み込む
  3. PDFをOCR化する
  4. 使う端末に送る

 

裁断(紙をバラバラの状態で用意)する

まず、最初に注意すべきことは、スキャナーで連続読み取りをするためには紙を1枚1枚バラバラの状態で用意する必要があることです。

ホッチキスなどで止めている場合はホッチキスを外し、本は裁断して下さい

重なっている箇所があれば、原稿詰まりの原因となり、最悪の場合破れることもあります

裁断をする方法は以下の3つがあります。

  • 自分で定規などで裁断する
  • 裁断機を使って家で裁断する
  • 業者に頼む

僕は業者に頼んで裁断してもらっています。

 

裁断機を使わずに裁断する

裁断機を使わずに、定規などで背表紙を取る方法です。

慣れればコスト0で裁断できます。

 

裁断機を用いて裁断する

裁断機では、良いものを買えば、家に居ながらにして何冊も効率よく裁断できます。

行動圏内とお店が被っていない場合には、裁断機が最も良い選択肢かもしれません。

 

裁断業者に頼む

裁断業者に頼むのでは、かなり安くプロが行なうため安心して頼むことができます。

僕がいつも利用している場所は、キンコーズです。

キンコーズでは税込110円(2019年12月現在)で、裁断してもらえます。

家の近くや行動圏に業者があれば、裁断してもらうと楽です。

 

スキャナーを用意する

原稿の用意ができたらスキャナーの準備をします。

スキャンするときには、プリントが重ならないようにして下さい

 

スキャナーとはその名の通り、読み取りの機械です。

僕は、その中でも連続で何十枚も原稿を読み取れるタイプのスキャナーを使っています。

Scansnapに代表されるスキャナーは以下の点で自炊に向いています。

  • 読み取り性能は高い
  • 一度に大量に読み取ることができる
  • 画質の設定、裏移りの軽減ができる
  • OCRソフト付き

 

しおん
しおん
僕はScansnap ix1500を使ってるよ

Scansnap ix1500はおすすめのスキャナー

僕は、Scansnap ix1500を使っています。

スキャナーにディスプレイが追加されたことで、スキャナーから読み取りの設定が簡単にできるようになりました。

scansnap ix1500は、連続で50枚のスキャンができ、そのままクラウドサービスに保存することができます。また、保存したPDFは、scansnap homeから内臓のOCRソフトを使うことで、簡単にPDFをOCR化(文字認識可能なPDF)可能です。

ScansnapについているOCRソフトはScansnap homeに保存されているScansnapで読み込んだ資料しかOCR化できません。

そのため、scansnap homeに保存されているPDFを後からOCR化することはできますが、1度削除したり外部に書き出したりすれば、もう1度読み込みが必要となります。

しおん
しおん
全てこれ1つで完結だね

 

スキャナーは委託は違法なので注意

スキャナーを買うのは高いなあ…じゃあ、スキャンを代行で店舗にお願いしようかな。

これは違法で、大変危険なのでやめて下さい。

自炊と呼ばれるスキャンは、著作権法において自分の使用するものに限定しています。

もし、代行業者に委託してしまうと、著作物を複製する代行業者と、実際に使う自分が別人になってしまい違法になってしまうのです。

なので、面倒かもしれませんが、自分でスキャンしましょう。

しおん
しおん
初期費用は高いけど、その分の恩恵はあるよ

OCRソフトを用意する

基本的にスキャナーには、OCRソフトが付いています。

では、なぜOCRソフトが必要になるのか?

その理由は無料のOCRソフトではできないことが多いからです。

有料のOCRソフトを導入するメリットは以下の4つです。

  • OCRの精度が高い
  • スキャンしたPDF以外もOCRをかけられる
  • スキャン補正機能がある
  • PDFの圧縮機能がある*

OCRソフトのメリット

OCRの精度は、検索機能に大きく関わってきます。この世には完璧なOCRソフトはないので、全ての書籍を100%の制度で読み込むことは不可能です。

しかし、難しい漢字が混ざったときや字数が多い場合には、付属のOCRソフトでは読み取りができないことが多いです。また、文字を手直ししようにも、そのような機能はついていません。OCRソフトではOCRできていない部分だけ手入力して変えることができます。

また、先ほどScansnap ix1500で説明したスキャンしたPDFのみにOCRがかけられるという話も、OCRソフトでは関係ありません。

有料のOCRソフトでは1度書き出したものも写真を撮ってPDFにしたものも複数のPDF同時にOCRできます。

このように無料版のソフトにはない機能がたくさんあるので、自炊に慣れてきた人、大量の書籍や書類をPDFにする人にはOCRソフトはおすすめです。

以上のことを踏まえておすすめのOCRソフトを紹介します。

scansnapなどの付属のOCRソフト

新しく用意するといいながらなんだとなるかもしれませんが、最初はこちらで大丈夫です。

PDF作成になれてきたら以下の有料のものを購入しましょう。

スキャナー付属のOCRソフトはスキャンしたPDFだけにOCRをかけられることが多いです。しかし、有料のものでは、スキャンしたもの以外にもOCRをかけられます。

 

読み取り革命

読み取り革命は、高性能のOCRソフトです。

PDFの高度な編集機能はついていませんが、OCRでは最高の性能を持っています。

パッケージ版が1万円程度のため、1回購入するだけでずっと使い続けられます。スキャンしたPDFだけではなく、全てのPDFにOCRをかけられます。

読み取り革命では、OCRの精度が高く、有料のOCRソフトを買うなら大変コスパの良い商品です。

 

adobe acrobat pro

adobeという名前は聞いたことがある人が多いかもしれません。

このソフトでは、PDFの編集の大体のことができます

PDFの結合、編集に加えて、高度なOCROCRの訂正スキャン補正ファイルの圧縮ができます。

スキャン補正

スキャン補正では、ファイルの傾きを調整できます。

スキャンしたときに原稿が若干斜めになった際にもう1度その部分だけスキャンし直すのはめんどくさいですよね。

スキャン補正をすることで、原稿を真っ直ぐにできます。goodnotesなどでまっすぐ線を引くときに原稿がまっすぐでないと徐々にズレてしまいます。

 

ファイルの圧縮

PDFをいくつも持ち歩くようになれば、本体の容量やクラウドの容量が心配になってきます。ファイルを圧縮することは、後々役に立ちます!

どんなPDFファイルにもOCRをかけられる

PDFファイルを直接OCRができれば、もらったPDFファイルや、OCRのミスがあった際に、もう一度スキャンしてOCRをかける必要がなくなります。

abodeでは、複数のPDFに処理ができるので、夜寝ている間にまとめてOCRをかけることもできます。

ただかなり金額が高く、学割の価格でも年間2万円はするので、使用するときに一括でPDFをOCRするのが良いかもしれません。

スキャンの受信端末を用意する

scansnapシリーズでは、スキャンデータ受信端末の設定ができます。受信設定をすれば、PCだけでなくiPadやiPhoneに直接スキャンしたファイルを送信することが可能です。

また、クラウドサービスにバックアップ設定をすることで、scansnapクラウドではなく、どこからでもアクセスできるgoogle driveへと保存可能です。

クラウドサービスに自動保存して、クラウド上でOCRすると時間がかかるので注意が必要です。

ここで考えるべきは、OCRをどこでやるかです。先ほど紹介したOCRソフトはPCでしか使えません。

なので、スキャンして、iPadに直接保存すると、OCRがかかっていないPDFを保存することになります。

iPadに直接送信して使用

原稿が、OCRが要らない・数ページしかない場合もあります。

そんなときには直接iPad,iPhoneだけで、OCRも済ましてしまいましょう。先ほどおすすめしたscansnapでは、iPadに直接送ることができます。

scansnap と、Scansnap cloudというアプリがあります。送信設定をすることで使うことで直接iPadに送信できます。

scansnap cloudでは月間500枚までiPad or iPhone上でOCRをかけられます。これを使えば、日々の書類を手軽にスキャンできます。

2つとも、最初の設定にはPCが必要です

一度設定してしまえば、スキャナーのスキャンボタンを押し、scansnap cloudに追加することで、そこでOCRをかけられます。

PCを経由する場合

PCを経由する場合には、

  • スキャナー→PC(OCR)→iPad
  • スキャナー→iPhone→PC(OCR)→iPad

の2種類があります。

スキャナー→PC(OCR)→iPad

スキャナーから直接PCに送る際には、PCでscansnap organizerを起動します。

スキャンが終われば、scansnap organizer、その他OCRソフトでOCRをかけ、スキャン補正・ファイルの圧縮などをします。

それらが終われば、

  • google driveなどcloud
  • Air drop(Mac OSのみ)

でiPadに送ります。

scansnap organizerを使うときには、google driveなどのクラウドに保存先を設定すれば、共有しやすくなります。

しおん
しおん
僕はgoogle driveを設定しているよ

容量が大きくてフォルダ分けできるので便利です。

 

実際にスキャンする

バラバラにした原稿を差し込み口に挿入して、スキャナーのボタン、iPhone、iPadのアプリのボタン、PCに入れたorganizerのスキャンボタンを押すことでスキャンが開始です

 

スキャンする側の設定では、

カラーの判別裏移り軽減の設定ができます。

本をスキャンするときには、最初の数枚をスキャンしてみて、スキャン画面で正しく読み取れているか確認するのがおすすめ。

黒白以外の原稿では、カラー選択をカラーにしましょう。

自動判別では色の薄いものも黒白とされます。

裏移り軽減

裏移り軽減は、その名の通り裏側に映っているものを消してくれます。

裏写り軽減あり→字が濃いもの、紙が薄いもの

裏写り軽減無し→字が薄いもの、紙が厚いもの

裏写り軽減は、基本的にはオンにしています。

しかし、文字が薄い鉛筆で書かれているなどの理由で原稿が見やすく読み取れていないことがあります。

このようなときには裏写り軽減を解除しましょう!。

 

スキャンの注意点

スキャンする時には、その対象が印刷された文字手書きかによってやり方が大きく異なります。

 

印刷された文字

多くのスキャンアプリやプリンター付属のスキャナーなどについているOCRソフトでは、印刷された文字をある程度認識できます。

そのため、印刷された文字をスキャンする時には積極的にOCR化しましょう。

また、資料をスキャンするときにはPDF expertなどでアウトラインを作成することでどこにどんな資料があるかすぐに見つけられます。

 

手書き

手書きの文字では、文字化けすることが多いため、OCR化はあまりおすすめできません。

また、シャープペンシルや鉛筆で書かれている場合には、プリンターやスキャナーを通すとローラーに色がついてしまい、原稿を汚しやすいです。

 

手書きの原稿を取り込んでもOCR化できなければ上手く検索はできませんが、OCRできなくてもPDF expertなどでアウトラインを作成すれば、それによって情報が取り出しやすくなります。

スキャナーのお手入れの仕方

スキャナーは使えば使うほど汚れるので、原稿を大幅に汚さないためにも、時々のお手入れが重要です。

僕は、ファイバータオルでこまめに拭いています。

まとめ

(裁断)→スキャン→(スキャン補正)→OCR→(アウトライン作成)

これがスキャンの一連の流れです。

全作業工程を書きましたが、ここまで丁寧にやっているのは教科書・参考書だけです。

日々の授業のレジュメや、文字以外を取り込むときには、スキャンして保存するだけでもいいかもしれません。

教科書・参考書・書類・レジュメを取り込むことで、iPad勉強の効率が大きく変わります。

ぜひスキャナーを買ってさらに便利な生活を送りましょう。

COMMENT

メールアドレスが公開されることはありません。

Publisher Website!