pdftotext

PDFファイルからテキスト抽出

estis2017/04/29 (土) 11:17 に投稿

pdftotext コマンドでできる。

macOS Sierra 10.12.4 環境では、
brew install poppler で、
 pdfdetach
 pdffonts
 pdfimages
 pdfinfo
 pdfseparate
 pdftocairo
 pdftohtml
 pdftoppm
 pdftops
 pdftotext
 pdfunite
が、インストールされた。

Poppler is a PDF rendering library based on the xpdf-3.0 code base.
https://poppler.freedesktop.org/

$ man pdftotext