中身はHTML！？電子書籍はWeb技術が心臓

2021/03/31

電子書籍とは一体？
1. レイアウトデータ
2. アナログの本
これほどのタイプがある！中身は一緒！
電子書籍はこのように作られた

こんにちは。周（シュウ）です。
コロナ禍でテレワークが主流になり、おうちでの時間が増えました。
おうちの時間をより楽しむため、みなさんはどんな工夫をしていますか。

様々な選択肢がありますが、電子書籍を読む方も多いでしょう。
BookLive社が去年6月に行った「電子書籍に関する意識調査」によると、
電子書籍を使うシチュエーション欄で「リビングや自室でくつろぎながら」、「就寝前に」が圧倒的な票数で前2位を占めました。

では、みなさんが読んでいる「電子書籍」の中身は一体何でしょうか。
そしてどのような工程で作られ、Webとはどのような関係があるのか。

今日はその電子書籍についてお話ししていきます。

電子書籍とは一体？

私は2013年から2015年の間に、中国で電子書籍制作の仕事をしていました。
私が制作した電子書籍は、見た目上で分けると、大きく2種類がありました。
1つ目はpdfをはじめ、アナログ本のレイアウトをそのまま再現した様式です。
2つ目はデジタル機器で閲覧する際の読み心地を配慮し、シンプルなデザインでフォントや文字の大きさが自由に設定できる様式です。

アナログ本を再現する様式では、制作に回す元データから見ると、大きく2パターンがあります。

レイアウトデータ

1つ目は、パソコンのレイアウトデータです。

現在の書籍では、InDesignをはじめとするレイアウトソフトで、本のレイアウトを設計するのが一般的です。

中国では、「方正書版」という方正株式会社のレイアウトソフトも多く使われています。
そのようなレイアウトソフトを利用して、pdf版のファイルを書き出すことが可能です。
レイアウトファイルでは原稿データもそのまま反映します。そのため、書き出したpdfデータではページにある文字を選択したり、複製したりすることが可能です。

アナログの本

2つ目は、紙製の本です。

昔、書籍のレイアウトは、職工が活字を組む作業を行うのが一般的でした。
パソコンでのレイアウトファイルは当然存在しません。

そのアナログ本をスキャナーで1ページずつスキャンし、pdfを作成します。
そのため、作成したデータは単に画像ファイルをまとめたpdfです。画像なので、文字を選択したり、複製したりすることができません。
文字を複製可能にするため、「OCRソフト」という、文字を認識することが可能なソフトが必要です。

そのため、誤字や認識漏れの発生は避けられませんでした。
ソフトの「精度」やスキャンした画像の質により、誤字の比率も大きく違います。
そのような誤りを無くすため、人工的に確認する必要が出てきます。

これほどのタイプがある！中身は一緒！

アナログ本をそのまま再現したpdfでは、スマホの場合は画面サイズが小さいので、本のサイズに合わせて縮小すると、文字が読みにくくなります。
画面を拡大すると、常に手でドラッグしないといけないので、非常に不便です。

そんな中、デバイスによってレイアウトの変更が可能な形式が出てきました。
それは「HTML」技術を利用した可変フォーマットです。

epub

「epub」はアメリカのIDPFという標準化団体が推奨する形式です。英語はもちろん、日本語、中国語など多言語に対応しています。
利用する端末によって、対応できない言語もあります。

azw/mobi

アマゾンが開発したデジタル本のリーダー「Kindle」用のフォーマットです。epub形式から変換することが可能です。

book

株式会社ボイジャーが開発したフォーマットです。とくに日本語の文字組みに優れていると言われています。その上、漫画の表示にも適しているようです。
そのため、日本ではそのフォーマットが幅広く使われているそうです。

中身はいずれもHTMLとCSSを使ってレイアウトを組んでいます。
読者が自分の「読みやすさ」に合わせて、ある程度自由にカスタマイズすることが可能です。
そのため、電子書籍リーダーやタブレット、スマートフォンなど、パソコン以外のデバイスでの閲覧に適していると言われています。

電子書籍はこのように作られた

では、電子書籍は、どのような工程を経て、作られたのでしょうか？

中国の会社で制作していた経験に基づいて簡単にお話しします。

元データの処理

まずは、元データの処理です。

書籍のレイアウトファイルの場合、「pdf」など、文字を簡単に取り出すことが可能なファイルに変換します。
紙製の本の場合、スキャナーでスキャンし、画像から文字を認識します。誤字脱字の校正も要りますので、手間がかかります。

データの作成

続いては、データの作成です。

データ作成では、主にテキストデータをpdfから取り出し、様式をマークアップする作業です。

スピーディーかつ正確にマークアップできるように、会社によってさまざまな工夫をしていました。
スタイルのマークアップは勝負のカギになり、会社の機密事項になった１つです。
その中、HTML&CSS知識を持っていない人でも簡単な操作でマークアップできるように、補助的なツールを開発した会社もあります。

また、コードの変わりに「【見出し】」のような意味のわかりやすい言葉を使って行のはじめに付けます。
そして、マクロという作業を自動化させるプログラムを使ってhtmlコードに一括変換する作り方を取り込んでいた会社もあります。

データのチェック

最後は、データのチェックです。

Sigilなどの電子書籍作成ツールを使って「epub」ファイルを生成します。
そこで、作成したファイルにマークアップの誤りや漏れなどがあるかどうかを確認します。
最後にepubフォーマットから「azw」「mobi」など必要な形式に変換します。

以上が、電子書籍が出来上がるまでの流れでした。
電子出版の一環である制作だけでも、コストがかなりかかりますね。

まとめ

HTML5をベースに、Web技術が支えた「epub」電子書籍。
それも、電子書籍事業部でも「Webデザイナー」「Webエンジニア」を求められている理由です。
Web技術は本当に幅広い場面で応用されていますね。

みなさんぜひ、身近にWebと関わるモノを探してみましょう！

スタッフブログ