| 1. |
ECCOとはどんな資料ですか? |
Eighteenth Century Collections Online (ECCO) は18世紀に刊行された英語・英語圏刊行物すべてを収録対象とし、それらをフルテキスト検索可能にするコレクションです。収録されているタイトルは、点数にして約20万点以上、総ページ数にして4000万ページにものぼり、その全ページを画像で閲覧できるほか、本文中の一語一句までテキスト検索できます。 |
| 2. |
ECCOに収録されている資料はどうやってデジタル化されたのですか? |
Cengage Learning-Gale社のマイクロフィルム・コレクション『The Eighteenth Century』をスキャニングして製作されました。『The Eighteenth Century』は1982年から継続して刊行されているマイクロフィルム・シリーズで、大英図書館が世界各国1000館以上の図書館の協力を得て編集している初期英語刊本所蔵目録『The English Short Title Catalogue 1473-1800 (ESTC)』に記載されている18世紀文献を収録するものです。 |
| 3. |
収録基準を教えてください。 |
ECCOへの収録基準は『The English Short Title Catalogue 1473-1800 (ESTC)』の18世紀資料の収録基準と同じです。具体的には、1701年から1800年までにイギリスおよびイギリスの植民地内で刊行されたすべての刊行物(言語を問わない)、および同期間に他の地域で刊行されたすべての英語刊行物を収録対象としています。原則として銅版画などの一枚刷り凹版印刷物は含まれません(ただし書籍に挿入されている図版や折り込まれている図版は含む)。また、ラベル・切符・名刺・招待状・蔵書票・上演プログラム・トランプ等の小型の消耗印刷物は含まれません。 |
| 4. |
英語以外の文献も収録されていますか? |
イギリス国内、またはイギリスの植民地内で刊行された刊行物であれば言語を問わず収録されています。例えば、ロンドンで刊行されたフランス語文献は収録されています。また、実際にはパリやアムステルダムで刊行されたものでも、検閲上の理由などから発行地が「ロンドン」と偽って記載されている非英語文献も収録されています。 |
| 5. |
原本はどのような図書館の蔵書を使っていますか? |
ECCOのもととなったマイクロフィルム版『The Eighteenth Century』は大英図書館を中心に、ハーバード大学図書館、オックスフォード大学ボドリアン図書館、ハンティントン図書館、カリフォルニア大学ロサンゼルス校クラーク記念図書館、マンチェスター大学ジョン・ライランズ図書館、トロント大学図書館など、世界各国の一流学術図書館の蔵書から撮影されています。 |
| 6. |
マイクロフィルム版はすべて刊行済みですか?
|
『The Eighteenth Century』は2009年4月現在で499ユニット(17,465リール)が既刊されており、まだ継続して刊行されています。 |
| 7. |
マイクロフィルム版の資料はすべてECCOにも収録されていますか?
|
2003年に刊行されたECCO (I)は『The Eighteenth Century』のうち、ユニット1〜371(12,985リール)をデジタル化し収録しています。2009年に追加されたECCO (II) にはユニット372以降の文献が収録されています。 |
| 8. |
ECCO (III) は刊行されるのですか? |
ECCO (III) の刊行予定はありません。 |
| 9. |
「OCR」とは何ですか? |
OCRとは英語でOptical Character Recognition、日本語で「光学文字認識」と呼ばれる技術です。紙やマイクロフィルムに書かれた文字をコンピュータに「読ませる」、つまり単なる画像としてではなく、一文字一文字を独立した記号として認識させる技術やプログラムのことを指します。ECCOに収録されているすべての文書のすべてのページがこのOCR技術を使ってテキストに変換されており、このことにより利用者は文書中のすべての語句を検索することができるようになっています。 |
| 10. |
ECCOで使用されているOCR技術はどのくらい正確ですか? |
ECCOには、保存状態のよくない稀少資料や、粗悪な技術で印刷された小冊子のようなものまでさまざまな資料が収録されているので一概には言えませんが、おおむね90%程度の確実さだと考えられます。これはこの時代の資料の読み取りとしては現時点の技術できわめて高い正読率だといえます。ECCOのOCRでは、古い文献特有の綴字法の不統一やいわゆる「ロングS」などの特殊文字も正確に検索できるように、特別に用意された同時代の単語集を参照して文字を判読しています。さらに、ECCOの "fuzzy search"(あいまい検索)機能を併用すれば、OCRが正しく認識できなかった文字や異綴語も検索できる確率が上がります。
|
| 11. |
Fuzzy Search機能とは何ですか? |
日本語で「あいまい検索」と呼ばれるもので、検索語と綴りが似ている単語も検索してくる機能で、ECCOの「Advanced Search」画面についています。各検索項目の後に「Fuzzy search Level」というプルダウンメニューがあり、初期状態だと「None」になっています。これを「Low」「Medium」「High」に変えて検索すると、その順に「あいまい度」が上がります。例えば、検索語が「labor」だったとします。Fuzzy search Levelが「None」のまま検索すれば「labor」しか拾いませんが、Lowなら「labour」「labors」も拾うし、Mediumならそれらに加えて「later」や「labours」も、Highなら「favor」や「harbor」も拾うことになります。 |
| 12. |
ワイルドカード検索はできますか? |
はい、できます。字の代わりに「?」「*」「!」マークを使うとワイルドカード検索になります。「?」は任意の1字、「!」は任意の1字または無文字、「*」は任意の字(いくつでも)を検索します。
| 例: |
「wom?n」で検索 |
→「woman」「women」等がヒット |
|
「labo!r」で検索 |
→「labor」「labour」等がヒット |
|
「law*」で検索 |
→「law」「laws」「lawyer」「lawful」等がヒット |
|
| 13. |
OCRテキストそのものを見ることはできますか? |
OCRで得られたテキストは、検索の際にデータベースの内部で処理されるだけで画面上には表示されません。したがってテキストを利用者が直接、見ることやコピーすることはできません。 |
| 14. |
書誌データもOCRで得られたものですか? |
いいえ、著者名、書名などの書誌データは書誌『The English Short Title Catalogue 1473-1800』のものを転用し、原本画像と照合されています。また、eTable of Contentsのデータも人間の手によって正確に入力されたものです。 |
| 15. |
「eTable of Contents」とは何ですか? |
eTable of Contentsは、各書物にもともと収録されている目次をハイパーリンクに変換したもので、eTable of Contentsに記された章題から各章の冒頭へとジャンプすることができるようになっています。また、「Title Page」(扉)、「Half Title」(小扉)など、原本の目次には記されていないページもeTable of Contentsには加えられており、閲覧を容易にしています。eTable of ContentsのデータはOCRではなく、人間の手によって正確に入力されたものです。(10ページ未満の資料や、原本に目次や前付け等がない資料にはeTable of Contentsを加えていません。) |
| 16. |
検索語はハイライトされますか? |
はい、検索語はすべて本文中でハイライトされます。 |
| 17. |
検索項目はどのようなものが使えますか? |
フルテキストのほかに、キーワード、著者、書名、主題となる人名、前付けページ(題扉・序文・目次など)、本文、後付け索引(各収録書にもともと収録されている索引類)、出版社、出版地から検索できます。また、限定項目として、刊年、大分野、言語、挿絵の有無と種類、文書番号(Galeが各タイトルに与えている固有番号)での検索も可能です。
|
| 18. |
キーワード検索は具体的には何を検索しているのですか? |
検索項目で「Keyword」と指定すると、著者名(副著者などを含む)、タイトル、目次のすべてが検索されます。 |
| 19. |
ページのプリントアウトは可能ですか? |
はい、3通りの方法で可能です。1つ目はブラウザから普通にプリントアウトする方法。もう2つ目はPDFファイルに変換して1ページずつプリントアウトする方法。3つ目は複数のページ(最大250ページ分)をまとめて1つのPDFファイルに変換し、まとめてプリントアウトする方法です。 |
| 20. |
ページのEメール送付は可能ですか? |
ページそのものをメールで送付することはできません。書誌情報のみのEメールは可能です。
|
| 21. |
データベースを「購入」すると何を所有できるのですか? |
ご購入時に、全ページの画像、OCRで得られた全テキストデータ、全メタデータ(書誌情報、目次・索引情報など)をお納めします。これらのいわば「生データ」はすべて購入機関の所有物となります。ただし、ECCOのインターフェース(画面デザインや機能性)、検索・閲覧プログラムなどのソフトウェアは購入することができません。 |
| 22. |
「購入」したのになぜ維持料が毎年かかるのですか? |
ご購入後もGaleのサーバに搭載されたECCOデータベースをアクセスしてGaleの提供する検索・閲覧インターフェースを利用しつづける場合、そのためのデータベース維持費を毎年お支払いいただく必要があります。もし、Galeのサーバやインターフェースを一切利用せず、ご購入された生データ(21.参照)を利用して、購入機関の内部で検索・閲覧システムを独自に開発される場合は、データベース維持費をお支払いいただく必要はありません。ただしその場合、GaleのサーバからECCOデータベースにアクセスすることはできません。 |
| 23. |
実際に購入機関が独自のシステムを製作することは可能でしょうか? また、その場合、どのような制約があるのでしょうか? |
相当の技術的・経済的投資は必要となりますが、不可能ではありません。また、現在は高額な技術も、技術の発展と普及によって将来的により安価になる可能性もあります。当初は年間維持費を支払ってGaleのシステムを利用し、技術的に可能になった時に独自のシステムを製作する、という考え方もあります。
制約については、購入機関の正規利用者のみに対してECCOの収録資料を提供する限り、特に問題はありません。ただし、原本の所蔵機関やGaleの権利や利益を侵害する行為(例えば、構築したシステムをインターネット上で万人に公開する、資料の複製を販売する等)は禁止されています。ご購入時にそうした利用範囲に関する契約書を結んでいただくことになります。 |