MacでPDFをOCR!紙資料を検索自在に変えるやさしい手引き

※本ページにはプロモーション(広告)が含まれています。
MacでPDFをOCR!紙資料を検索自在に変えるやさしい手引き

Macで開いたPDFの文字が選択できず、どうやってOCRをかければいいのか戸惑っていませんか?

ここでは、ソフトを買わなくても済む標準機能から、ターミナルで一括変換する少し進んだ方法までを順に示し、時間をかけずに紙の資料をデジタル化できるよう丁寧に案内します。実際に数百枚の議事録を処理した経験を踏まえ、設定のつまずきどころや膨らんだファイルを軽くするコツも盛り込みました。

手元の書類をすぐ検索できる状態に変えたいときは、まず冒頭の簡単な操作から試し、慣れてきたら応用編で作業を自動化してみてください。

目次

手を動かそうMacでPDFをOCRするやさしい流れ

手を動かそうMacでPDFをOCRするやさしい流れ

まずは全体像をつかんでから手を動かすと安心です。Macならではの手軽な方法からプログラマー好みのコマンドまで、さまざまなアプローチが選べます。

  1. Live Text搭載のPreview:macOS Ventura以降で使える機能で、開いたPDF上で文字をドラッグするとコピーや検索が可能
  2. Tesseractコマンド:Homebrewでインストールしてターミナルから動かせるOCRエンジン。複数ファイルの一括処理が得意
  3. Automatorワークフロー:ドラッグ&ドロップで動くレシピを作っておくと、数十枚のスキャンPDFもワンクリックでOCR化できる
  4. サードパーティアプリ:PrizmoやPDFpenなど、GUIで設定できるツールも充実。少ない手順で高精度な結果を出せる

どの方法を選ぶかは用途や好みによりますが、プログラマー視点ではTesseract+Automatorの組み合わせが特に楽チンです。次のステップでは、これらの具体的な手順を順番に紹介していきます。

プレビューだけで完結LiveTextでちゃっかり文字を抜き出す

プレビューだけで完結LiveTextでちゃっかり文字を抜き出す

PreviewでPDFや画像を開いたまま、カーソルを文字の上に合わせるとLiveTextが反応します。選択範囲をドラッグしてコピーすれば、別アプリを立ち上げずにテキストだけをサッと取り出せます。

細かい引用やコードの一部を抜き出したいときにすごく便利です。わざわざOCRソフトをインストールせずに、すぐ手軽に試せるのが魅力です。

プログラマー視点だと、スクリーンショットからマニュアルのコマンドをコピーしたり、PDFのエラー箇所だけピンポイントでテキスト化したりするときに重宝します。

①FinderでPDFをダブルクリックしてプレビューを開く

手順
FinderでPDFをダブルクリックしてプレビューを開く

デスクトップかFinderでOCRしたいPDFをダブルクリックすると、自動的にプレビューアプリが立ち上がります。

もしサムネイルだけ確認したいときは、PDFを選択してスペースバーを押すとクイックルックが使えます。

②表示メニューからテキストを表示を選んでLiveTextを有効にする

手順
表示メニューからテキストを表示を選んでLiveTextを有効にする

PDFをPreviewで開いたら、画面上部のメニューバーから表示をクリックし、リストの中からテキストを表示を選んでください。

この操作でLiveTextのテキスト選択機能がオンになり、画像になっている文字部分にカーソルを合わせると文字をドラッグして選択できるようになります。

③ドラッグで文字を選択してcommandCでコピー

手順
文字をドラッグで選択

マウスカーソルをテキストの先頭に合わせてクリックしたまま、最後までドラッグで選びます。

目的の範囲が薄い青色に反転したら選択完了です。

次にキーボードでcommandキーを押しながらCを押せば、選んだ文字がクリップボードにコピーされます。

PDFがOCR済みでないとテキストを選べないので、事前にAutomatorや外部ツールでOCRを済ませてください。

マウス操作が苦手な方は、shiftキーを押しながら矢印キーで選択範囲を広げる方法もあります。

④TextEditを起動してcommandVで貼り付け内容を確認する

アプリケーションフォルダを開いてTextEditをダブルクリックし、エディタを立ち上げます。

TextEditの新規ウィンドウが表示されたら、キーボードでcommandキー+Vキーを押して先ほどコピーしたテキストを貼り付けします。

貼り付けられた文字列に不自然な空白や文字化けがないかをじっくり確認しましょう。OCRで読み取れなかった箇所があれば、元のPDFを再度処理するか、手動で修正すると安心です。

TextEditを「標準テキスト」に切り替えてから貼り付けると、書式がクリアになって読みやすさがアップします。

ターミナル派ならHomebrewとOCRmyPDFで一括変換

ターミナル派ならHomebrewとOCRmyPDFで一括変換

ターミナルから一気にPDFをOCR処理するならHomebrewで入手できるOCRmyPDFが便利です。インストールもスクリプト化もラクラクで、手軽にバッチ変換が可能になります。

  1. Homebrew経由で簡単導入:コマンド一発でOCRmyPDFをセットアップ
  2. フォルダ丸ごと一括変換:シェルスクリプトでPDFをまとめて処理
  3. 自動化しやすい:定期処理やCI連携にもピッタリ
  4. 多彩なオプション:言語指定や圧縮付きOCRなど好みに合わせて調整可能

①Launchpadからターミナルを開く

手順
①Launchpadからターミナルを開く

画面下部のDockにある銀河の星マーク「Launchpad」をクリックしてください。

上部に表示される検索バーにターミナルと入力すると、黒いアイコンがすぐに絞り込まれます。

見つかった「ターミナル」アイコンをクリックすると、コマンド入力用のウィンドウが立ち上がります。

②brewinstallocrmypdfを入力してEnter

ターミナルが開いたら、brew install ocrmypdfを入力してEnterを押します。

brew install ocrmypdf

インストールが始まり、必要なライブラリやツールが自動でダウンロードされます。完了するまで数十秒〜数分かかるので、ターミナルを閉じずにそのまま待ちましょう。

もし「command not found」と表示されたら、Homebrewがインストールされていない可能性があります。その場合は公式サイトからインストールしてから再度お試しください。

③ocrmypdf入力pdf出力pdfを入力してOCRを実行

手順
ターミナルを起動

Spotlight(⌘+スペース)で「ターミナル」と入力するとすぐに起動できます。

手順
ocrmypdfでOCRを実行

OCRしたいPDFがあるフォルダに移動して次のコマンドを入力します。

ocrmypdf -l jpn input.pdf output.pdf

終わったら出力PDFをプレビューで開いてテキスト層が追加されているか確認しましょう。

ファイル名に半角スペースが入っているとエラーになります。スペースをアンダースコアに置き換えるか引用符で囲んでください。

languageオプションで複数言語を指定するときは「-l jpn+eng」のように足し算してください。

④プレビューで出力pdfを開いて検索できるかチェック

手順
プレビューでPDFを開いて検索できるか確認

Finderで出力したPDFを選択し、Enterキーかスペースキーでプレビューを起動します。

画面上部の検索欄に任意のキーワードを入力し、ハイライト表示されるかチェックします。

文字が選択できない場合は、OCR設定を見直して再度読み込みましょう。

とにかく簡単にしたいならAdobeAcrobatでワンクリック

とにかく簡単にしたいならAdobeAcrobatでワンクリック

Acrobatを使うと、PDFを開いてワンクリックで文字を読み取れるので、手間をかけたくないときにぴったりです。画面レイアウトをそのまま残しつつテキスト化できるので、あとで配置がずれて困ることもほとんどありません。

  1. ワンクリックで完了:難しい設定なしにすぐOCRできる
  2. レイアウトキープ:図や表の位置がそのまま
  3. 多言語対応:日本語はもちろん英語や中国語もOK
  4. 一括処理できる:複数ファイルをまとめてOCR可能

①AdobeAcrobatを起動してPDFをドラッグする

手順
Adobe Acrobatを起動してPDFをドラッグする

DockやLaunchpadからAdobe Acrobatのアイコンをクリックして起動します。Spotlight(command+space)で「Acrobat」と入力してEnterを押すのも手軽です。

起動後、FinderでOCRしたいPDFを選択し、Acrobatのウィンドウ内かDockのアイコンにドラッグ&ドロップします。これでPDFが読み込まれてOCRの準備が整います。

ドラッグ先のウィンドウが隠れていると反応しづらいので、Acrobatのウィンドウを前面に出してから行うとスムーズです。

②右側のスキャンとOCRをクリック

プレビューの右側にあるスキャンとOCRをクリックしてください。

クリックすると自動で文字認識がスタートし、完了後はテキストレイヤがPDFに追加されて、検索やコピーが可能になります。

ファイルサイズが大きいPDFでは処理に時間がかかることがあります。

複数言語の文書を扱う場合は、あらかじめ言語設定を行っておくと認識精度が向上します。

③テキスト認識を実行を押して待つ

「テキスト認識を実行」ボタンをクリックすると、Automator が自動で OCR を開始します。進捗バーが表示されるので、そのまま待ちましょう。処理中は CPU 使用率が上がることがありますが正常です。

処理に時間がかかる場合は、ほかのアプリを閉じると速度が安定しやすいです。

複数ページの PDF を一度に処理すると時間が伸びるので、必要に応じて数十ページずつ分割するとスムーズです。

④commandFで検索して文字が拾えるか確認する

手順
command+Fで検索して文字が拾えるか確認する

PDFをプレビューで開いて、commandキーを押しながらFキーを押します。画面上部に検索バーが出るので、気になる文字を入力してください。該当部分がハイライトされれば、OCRがちゃんと働いている証拠です。

OCRしたPDFで毎日の作業をもっとラクに楽しむアイデア

OCRしたPDFで毎日の作業をもっとラクに楽しむアイデア

OCRしたPDFをただのデータ保存だけで終わらせず、日々の作業をもっとラクに、そしてちょっと楽しく工夫してみましょう。

応用アイデアできること
自動タグ付け文書内容を解析して分類タグを自動付与し、資料探しの時間を大幅に短縮
定型フォームへの流し込み請求書や申請書などの定型文を一括で入力してミスを防止
重要ワード要約長い議事録やレポートからキーワードを抽出し、要点だけを素早くチェック
メモの音声変換OCRした文字を読み上げツールと連携して、移動中に耳で情報確認
チーム共有ハイライト重要箇所をハイライトしてPDFリンクを共有し、議論をスムーズに進行
語学学習用変換外国語の書籍や資料をテキスト化し、辞書ツール連携で単語チェック

Spotlight検索で紙の資料も一瞬で呼び出す

Spotlight検索で紙の資料も一瞬で呼び出す

Spotlight検索はMacに標準で付いている全文検索機能です。OCRを使ってPDF化した紙資料をSpotlightに読み込ませれば、ファイル名だけでなく本文中のキーワードまで一瞬で探し出せます。

Spotlightならではのポイント
  • 追加アプリ不要で手軽に全文検索が使える
  • Finderやメニューバーからすぐ呼び出せる
  • OCR済みPDFなら文字をハイライト表示して確認もスムーズ

Finderのcommandspaceでキーワードを入力して目的のPDFを開く

手順
FinderのSpotlight検索でPDFを開く

Commandキーとスペースキーを同時に押してSpotlightを呼び出します。入力欄にkind:pdfを先頭につけるとPDFだけを絞り込めます。そのまま探したいキーワードを入力し、候補に表示されたPDFをEnterキーで開きます。

プレビューでハイライトしながら情報をメモにコピー

手順
PDFをプレビューで開く

対象のPDFをDockやFinderからプレビューで開きます。OCR処理が終わっていれば、そのままテキスト選択が使えます。

手順
テキストをハイライトしてコピー

ツールバーからテキスト選択アイコンをクリックし、マウスで文字をドラッグして選びます。選択が済んだら⌘+Cでコピーしてください。

手順
メモに貼り付ける

メモアプリを起動して新規または既存ノートを開き、⌘+Vで先ほどコピーしたテキストを貼り付けます。必要に応じて見出しやコメントを追加すると整理しやすいですよ。

Automatorでフォルダに入れるだけの自動OCR

Automatorでフォルダに入れるだけの自動OCR

フォルダアクションを使って、指定のフォルダにPDFを入れるだけで自動OCRできる方法です。手を煩わせずに、まとめて処理したいときにうってつけの選択肢です。

  1. 操作がシンプル:PDFをドラッグ&ドロップするだけ
  2. 常にバックグラウンドで実行:ほかの作業を邪魔しない
  3. 無料で使える:macOSに標準搭載のAutomatorを活用
  4. 応用がきく:保存先や出力フォルダを自由に設定できる

作成したフォルダアクションはバージョン管理しておくと、別のMacへの展開がスムーズです。Dropboxと連携させれば、どこからでも同じワークフローが使えます。

Automatorでフォルダアクションを作成しocrmypdfを組み込む

手順
Automatorを起動してフォルダアクションを選ぶ

アプリケーションフォルダからAutomatorを開いて「新規書類」をクリックし「フォルダアクション」を選びます。

手順
アクションの対象フォルダを設定する

「フォルダアクションが受け取る現在のフォルダ」をクリックしてOCR処理したいフォルダを選びます。

手順
「シェルスクリプトを実行」を追加

左側のライブラリから「シェルスクリプトを実行」を検索してドラッグします。

手順
スクリプトにocrmypdfコマンドを書く

シェルは「/bin/bash」にし、以下のコードを貼り付けます。インストール先のパスはwhich ocrmypdfで確認してください。

for f in "$@"; do /usr/local/bin/ocrmypdf "$f" "${f%.pdf}_ocr.pdf" done
手順
保存して動作確認する

名前を付けて保存し、対象フォルダにPDFを入れてOCR付きPDFが生成されるか試してみましょう。

指定フォルダにPDFを置くだけで裏でOCRが走る

指定フォルダにPDFを入れるだけで、裏で自動的にOCR処理が走る仕組みを作ります。

手順
Tesseractをインストール

ターミナルを開いて、OCRエンジンのTesseractをHomebrewから入れます。

brew install tesseract
手順
OCR用スクリプトを用意

任意の場所にシェルスクリプトを作って、PDFをテキスト化するコマンドを記述します。

#!/usr/local/bin/bash file=”$1″ tesseract “$file” “${file%.pdf}” -l jpn pdf
手順
Automatorでフォルダアクション作成

Automatorを開いて「フォルダアクション」を選択し、監視対象フォルダに先ほどのスクリプトを登録します。

手順
動作確認

テスト用PDFを対象フォルダにコピーして、同じ場所にOCR済みファイルができるか確かめます。

フォルダ名にスペースが入るとスクリプトが動かない場合があるので、パスはクォートで囲んでください。

日本語OCRをするなら「-l jpn」を忘れずに追加すると文字認識率が高まります。

Numbersに表を取り込んで集計をパパッと終わらせる

Numbersに表を取り込んで集計をパパッと終わらせる

スキャンしたPDFからOCRで表をテキスト化できたら、Numbersにペーストして集計作業をグッと速く進められます。数字が並んだ列や行をドラッグするだけで合計や平均をサクッと計算できるので、手動で電卓を叩く必要がほぼなくなります。

さらにプログラマー目線の小技として、AutomatorでOCR結果をCSVに変換すると、Numbersへそのまま取り込めるのが頼もしいポイントです。列幅や罫線のズレを手早く調整して、あっという間に見やすい表に仕上げられます。

プレビューで表をコピーしてNumbersにペースト

PDFの表を扱うときはPreviewから直接コピーしてNumbersに貼り付けると手早くデータ化できます。OCR済みPDFなら文字認識結果をそのままスプレッドシートに流し込めるので試してみましょう。

手順
Previewで表を選択

PreviewでPDFを開いて、マウスまたはトラックパッドで表全体をドラッグして選択します。

手順
表をコピー

⌘Cキーを押して選択範囲をクリップボードにコピーします。

手順
Numbersで新規シートを作成

Numbersを起動して「新規作成」から空のスプレッドシートを用意します。

手順
表を貼り付け

先頭セルをクリックしてから⌘Vキーを押し、コピーした表をシートに貼り付けます。

手順
列幅とセルを整える

列の境界部分をダブルクリックして幅を自動調整し、セルの配置や文字サイズを見やすく整えます。

表の列がずれているときは、Numbersの「テキストを列に変換」機能を使うと正しく分割できます。

関数を使って合計や平均を一瞬で算出

手順
関数を使って合計や平均を算出

OCRで抽出した数値を表に貼り付けたら、合計や平均を出したいセル範囲をドラッグで選択します。

セルの下側など余白をダブルクリックし、=SUM(B2:B10)を入力すると範囲の合計が一瞬で算出されます。平均を求める場合は=AVERAGE(B2:B10)を入力してください。

関数名を入力し始めると候補が表示されるので、Tabキーでサクッと選ぶと入力が速くなります。

よくある質問

よくある質問
MacのプレビューでOCRできないのはなぜですか?

プレビューにはOCR機能が入っていません。実体験ではアップル純正のショートカットを使ったり、サードパーティ製アプリを入れたりして対応しました。特に日本語対応がしっかりしているものを選ぶと、スムーズに文字検索ができて便利でした。

無料で使えるOCRアプリはありますか?

PDF OCR Xの無料版を試したところ、シンプルな資料ならけっこう認識してくれました。とはいえ長文や手書きは苦手なので、頻繁に使うなら有料のPrizmo GoやAdobe Acrobat Proを検討するとテキストの精度が上がります。

OCR処理したテキストをどうやって取り出せばいい?

OCR後はPDF内の文字をドラッグ&コピーできるようになります。プレビューでも使えますが、OCRアプリ側の「テキスト抽出」機能を使うと一括でクリップボードに入るので、NotesやPagesにペーストして活用すると効率的でした。

大きなPDFが途中で止まってしまう場合の対策は?

数百ページのPDFを一気にOCRするとメモリ不足になりやすいです。ページを50枚ずつに分割して処理すると安定しました。慣れてきたらAutomatorで分割とOCRを自動化するワークフローを組むとさらに楽になります。

LiveTextで文字が選択できないときはどうする?

LiveTextはカメラや写真からサクッと文字をコピーできる便利な機能ですが、読み込み精度がイマイチなときがあります。

そんなときは画像の解像度を上げたり明るさやコントラストを調整するだけで文字選択できる場合が多いですよ。また、PDFデータそのものがスキャン品質にムラがあるときは、あらかじめプレビューAppで軽くトリミングしたり余白をカットしてから再読み込みするとLiveTextが文字を拾いやすくなります。

ocrmypdfがbrewで入らないのはなぜ?

Macの最新OSで「brew install ocrmypdf」を実行すると、パッケージが見つからないエラーが出ることがあるんですよね。これはHomebrewがまだocrmypdf用の公式ボトルを用意していないためで、自動的にパッケージが取得できないのが原因です。

さらに、ocrmypdfはPython製なので、HomebrewがサポートしているPythonバージョン以外(たとえば3.11以降)だとソースからビルドしようとして依存ライブラリのTesseractやLeptonicaを個別に揃える必要があります。するとインストールコマンドだけでは済まず、ちょっと手間が増えてしまうんです。

変換後のPDFサイズが大きいとき軽くする方法は?

OCR変換したPDFは高解像度のまま保存されることが多く、結果としてファイルサイズが大きくなることがあります。資料をメールで送ったりクラウドにアップしたりするときに困った経験はありませんか。

そんなときは以下の方法を試してみてください。それぞれの手軽さや圧縮率にメリットがあるので、用途に合わせて選ぶとスムーズです。

  1. Previewの「書き出す」から圧縮フィルタを使う:標準搭載なので追加ソフト不要で簡単です。画像の品質を調整しながらサイズを下げられます。
  2. Ghostscriptでコマンド圧縮:ターミナルでgsコマンドを実行すると細かく設定でき、プログラマーらしい効率的な処理が可能です。
  3. 専用アプリ(PDF Squeezerなど)を使う:ドラッグ&ドロップで一括圧縮できて、複数ファイルをまとめて軽量化したいときに便利です。

これらの方法を組み合わせると、見た目をほとんど損なわずにPDFサイズをぐっと軽くできます。

日本語がうまく認識されないときのコツは?

スキャンしたPDFで日本語が文字化けしやすい場合は、TesseractOCRに日本語モデルを追加すると認識率がグッと良くなります。標準だと英語だけなので、追加データを入れるだけです。

このやり方のいいところは無料で使えて、Automatorやシェルスクリプトにも組み込めることです。慣れると大量のPDFを一気に処理できちゃうので、プログラマーらしい効率化が味わえますよ。

準備としてHomebrewでTesseractを最新版にしておくとスムーズですし、日本語データも最新バージョンを選ぶとさらに安心です。

会社Macで新しいアプリを入れられないときの代替策は?

会社支給のMacで新しいアプリが制限されているときも、OS標準の機能やブラウザだけでPDFをOCRできます。

インストール不要なのにサクッと文字を取り出せるのが助かります。

  1. プレビューのLiveTextを活用:macOS Monterey以降は画像内の文字を選択してコピーできる
  2. Automatorのテキスト認識ワークフロー:標準搭載のAutomatorでOCR処理を自動化できる
  3. WebベースのOCRサービス:ブラウザからPDFをアップロードするだけで文字起こしが完了する
  4. スマホのOCRを併用:iPhoneの「テキスト認識表示」でスキャン→AirDropでMacへ転送

どれも社内ポリシーに引っかからずに使えて安心です。

まとめ

まとめ

ここまでで紹介した手順を振り返ると、紙資料をスキャナやスマホで取り込んでPDF化し、AutomatorやターミナルのTesseractでOCRをかける流れがいちばんシンプルで頼りになります。

  1. 紙資料の取り込み:スキャナやスマホのカメラでPDFにまとめる。
  2. OCRの実行:AutomatorワークフローかターミナルでTesseractを使って文字認識。
  3. 結果の確認・修正:Previewでテキストを見直し、誤認識があればサッと直す。

このステップを覚えれば、最新のmacOSでも手軽に紙資料をテキスト検索できるPDFに変身させられます。ぜひ気軽に試して、デジタル整理の快適さを味わってみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次