昨年は、バズワードの様相を呈していた《電子書籍》。最近やっと落ち着いてきたので、一度『電子書籍フォーマット』について冷静に振り返ってみましょう。

電子書籍フォーマットの種類

電子出版に使われるコンテンツフォーマットには、大きく分けて2種類あります。固定レイアウトのものと流動レイアウトのものです。

レイアウト 特徴
固定 PDF, 各種画像フォーマット, … 表示環境に影響されずに、1ページの紙面デザインが一意に固定される
流動 EPUB(HTML) , XMDF, .book, … 画面サイズや文字サイズにより、1ページ当たりの内容が流動(リフロー)する

今のところ、雑誌には固定レイアウトのフォーマット、小説には流動レイアウトのフォーマット、という使い分けがなされています。これは、流動レイアウトのフォーマットが、その性格上、コンテンツがほぼ文字だけのものにしか対応できないことによります。

ただの画像ビューアになってしまっている電子雑誌アプリ

流動レイアウトのフォーマットが日本でガラパゴス化しているという問題はよく語られますが、固定レイアウトの電子書籍にも、アプリが「ただの画像ビューア」になってしまっているという問題があります。

例えばマガストアやビューン、日経BPストアなど多くの電子書店では、紙面をJPEG化してiPadで表示させています。つまり、紙面は単なる写真扱いで、文字を画面上で選択するという基本的なことができません。電子書籍なんだから「気になる単語をタップして、その場で Wikipediaで調べられる」くらいのことは当然期待されるのに、非常に残念な状況です。

電子出版フォーマットとしてのPDFの再評価

教科書などは、まだまだ流動レイアウトタイプのフォーマットでは表現できないコンテンツです。だからといってテキスト情報を放棄した形の電子出版はしたくない。幸い、広く使われている文書フォーマットである PDF には、テキスト座標など、テキストの情報が全て含まれています。

PDFテキスト検出前

↓ テキスト矩形を検出

PDFテキスト検出前

こういったPDF解析をすることで、電子出版したいPDFを頂きさえすればテキスト選択もできる形で電子出版できるフレームワークを開発しています。こういったことに興味ある方、募集中です!