研究会報告


| 1 | 2 | 3 | TOP |

Z39.50開発事例

橋本さん

1. 新日鉄ソリューションズ (LVZ)

[橋本]新日鉄ソリューションズの橋本と申します。前回事情で出席できませんでしたので、今回初めて出席させていただきます。よろしくお願いします。

今回の研究会の中で、うちが開発しました、LVZのZ39.50について紹介させていただく時間をいただきましたので、簡単な資料と説明で申し訳ありませんが、紹介させていただきます。

プロジェクターに出せる資料ができなかったんで、皆さんにお配りした2枚の紙、あると思いますが、そちらの方で、うちのZ39.50サーバーの簡単な概要について、説明させていただきます。

簡単な資料ですみませんが、Z39.50サーバーのどういう機能をサポートしているかという、箇条書き程度のものですが、LVZ Z39.50サーバーの方は、LVZの検索サーバーの方を介して、データベースの調査を行い、クライアントのほうのその要求を出して、返戻を返しております。よって、Z39.50のプロトコルの処理を行うモジュールと、それを受け取って、実際LVZのデータベースに対して検索サーバーと連携する処理を行うモジュールの2つに大きく分かれております。

実装してますサービスが、基本的なものですが、初期化・検索・ソート・返戻・終了のサービスを実装しております。初期化の中で対応しておりますプロトコルバージョンですが、ヴァージョン2と3のほうに対応しております。オプションとして、検索・ソート・返戻に対応しております

サーバーを立ち上げますときに、エミュレーション機能あり、なしのどちらかで起動できるように対応しております。エミュレーション機能ありで起動しているときは、認証処理を行います。文字コードのほうは、ISO-2022-jpとUTF-8、の2種類の文字コードに対応しております。

検索サービスのほうが、検索の対象とするファイルデータベースですが、図書の書誌と所蔵を扱うBOOK、雑誌書誌所蔵を扱うserial、の2種類のデータベースを指定して検索を行います。問い合わせ方として、タイプ1、タイプ101をサポートしております。検索式の論理式としてサポートしているものは、ANDORとANDNOTの2種類です。ソート機能ですが、こちらはLVZの検索サーバーのほうの機能のほうと関連することがありまして、次のような制限事項としてあげてますが、次のようなものがあります。現在指定できるソート項目というのは、1項目のみ、大文字と小文字の区別をしないでソートを行います。複数の検索対象ファイル、図書と雑誌と別のソート対象項目を指定する機能は、現在はサポートしておりません。

スコアに基づく検索結果集合に対するソートは今のところサポートしておりません。

返戻サービスですが、対応しておりますレコートコードに関しましては、CAT-Pフォーマット形式と、MARC21と、JP-MARCの3種類です。要素集合名として、簡略レコード型と、詳細レコード型と2種類を指定できます。

最後に、BIB-1のサポートの詳細の表を載せておりますが、ユースアトリビュートに関しましては、NII様のZ39.50サーバーの公開されてます仕様のほうに合わせる形を取らせて頂いております。実際正式には公開していないのですが、うちのほうで検索用サーバーを設置しておりますので、その画面だけを簡単ですが紹介いたします。

検索条件を入力する画面です。最初にそれぞれ登録されておりますZのサーバーがございますので、その中からどのサーバーに対して検索を行うか、を選択します。選択したZ39.50サーバーに対して、検索条件を入力します。検索ボタンを押すと、選択した各サーバーに対して、Z39.50のプロトコルにしたがって、検索要求を出していきます。検索結果のほうが各サーバーの件数として表示されます。ソートのサービスを実装しておりますサーバーに対しては、ソート項目も選択できるようになります。それぞれのサーバー名をクリックしますと、そのサーバーの検索結果の一覧を表示する画面になります。

この画面を見ただけでは、Z39.50のプロトコルが使われているとか、どういうMARCで返ってきているのかというのが分からないとは思うのですが、受け取ったデータを解析して、表示しております。一つのデータの詳細表示に戻って、MARC表示を行います。。実際にサーバーの方から返ってきているデータのMARCフォーマット形式を解析しています。

ページの方は正式には公開できていませんが、近いうちに皆さんがインターネット上でこういう画面で検索できるように公開したいと思っております。先日、慶應大学さんのZ39.50のページの方にうちのサーバーへの検索のルートをつけていただきまして、実際に検索できることも確認できております。

今後の対応としてたしましては、LVZのほうはCAT-P形式で目録データを持っているので、それをMARC21の方にどういう風に変換するかということがありますので、こちらの方はNII様の変換仕様の方に従う形になると思いますが、そちらの方も進めていきたいと思っております。

以上、簡単な説明で、上手な説明ではありませんでしたが、弊社のLVZのZ39.50の実例報告ということで、報告させていただきます。

2. 慶應義塾大学の実装方式

[入江]それでは質問もまた、あとで。慶應の方にいきます。

慶應の方のデモはですね、Z39.50のウェブゲートウェイの機能分担と機能概要というところをですね、見ていただければ。

慶應の方のゲートウェイ、ゲートウェイ側でいくつかポートを分けておりますので、これがUTFの対応のものです。前回も見せているんですが、今回いろいろ考えたことがありまして、実装のやり方を説明させていただきます。

機能分担と機能概要ということで書いていますが、Z39.50のターゲットは交換フォーマットをきちっと出すための機能ということで、機能限定をしております。その代わり、文字コードのいくつかのパターンを用意しようかと思っています。JISも出していますけど、ポートをわけて、慶應のターゲットから出す文字コードだけ分けています。KOSMOSIIと言っているのは、ローカルの慶應のシステムです。KOSMOSIIからZ39.50ターゲットにデータを貰ってですね、そこから出していくフォーマットは一応MARC21ベースに準拠したフォーマットを出します。それ以外にゲートウェイを作っておりまして、このゲートウェイはユーザーインターフェースとターゲットのバリエーションがいっぱいあるので、それを吸収するということで考えているものです。LVZもついています。

日本語資料をいっぱい持っているMelvylから返って来るデータは、元々はここはINNOPACなんですけれども、EACCです。EACCのデータをコンバートしてUTFにしています。MARCフォーマットを見ると、長音が出ていないんですが、通常にMARC21で出てきたものは、どこであろうが普通に出ます。ここに日本語表示の場合と英語表示の場合と選べるようになってまして、通常の基本タグから持ってくるものと、880から展開するものの切り分けをしています。これは、ローマ字形です。ユーザーインターフェースの設定はここでやっています。

通常にデータを交換するという意味でのフォーマットを決めてしまって、あとはクライアント側である程度のコントロールをしてしまうと、同じに見えるという説明です。Z39.50ターゲットは、何をするかといえば、データフォーマットを決めた形に出していくものであって、あとはユーザーインターフェースを作らなければならないというところだと思います。そこをある程度コントロールして、のせましたと。これを、今回LVZが作られたということだったので、当たり前でMelvylは漢字できないんですが。皆さんUTFのコードを持っているので、あとはBIB1のマッピングがあるので、いろいろやらなければならないのですが、LVZはあたり前にでます。LVZは新日鉄さんから情報をいただいて、設定するのに5分かからなかったのですが、慶應側のネットワークが閉じていたので、そこを直してもらって、やったらすぐにできました。ある程度NIIさんが出している標準とかありますので、それに則ってもらえれば、ほとんど問題なく出るかと思っています。データ交換という意味では、それなりにできるかなと。今後のターゲットは、CD-ROMサーバーがZに上がってますから、それをくっつけるテストをしています。一応SilverPlatterにしろ、Ovidにしろ、テキストのマッピングは出してますので、それにそってやればできます。ただ、SilverPlatterとかCD-ROMとかいうのはだいたい著作権の問題があって、ここにはリンクしてないですけれども、CD-ROMについては、全部問題なくZで検索できるようになっています。あとはそこからどこにいくかということだと思うのですけれども。全部実験はしてみました。今回は、ターゲットとクライアントの機能分担をきちっとして、ターゲットは通常のMARC21で出す形にして、ある程度のユーザーインターフェースをゲートウェイでやっていくことです。日本語資料を普通にどこでもいこうという形で作っています。細かい資料については、コンパックさんが作った資料がありまして、基本的なところはコンパックさんが作ってくれているんで、出しています。libsysのページから、いつでも入れますので、いろいろやってみてください。あとはこれをどう業務で使うかというのがありまして、今書店さんの発注システムからzで検索がきて、重複チェックをするという実験をしています。ただまだ安定していなくて、業務に乗っけると、いろいろありまして、まだテスト中ですけれども。いくつかの実験をしながらやっています。とういうところで、僕のほうのデモは終わります。

3. 富士通 (iLiswave)

[松永] 富士通の松永と申します、よろしくお願いいたします。本日は5分ほどお時間をいただきまして、弊社大学図書館システム「iLiswave」の標準化の状況ということで、簡単にご説明させていただきます。

Z39.50サーバは、NACSISフォーマットからMARC21の変換機能を現在開発しております。「NII様からご提示された変換仕様をベースに書誌変換機能開発済み」と資料に書いてございますが、先ほどNII様より仕様変更の説明がございまして、非常に大変な修正量があるなあと思いました。所蔵変換機能に関しましては、仕様が決定したということで良かったなあと思っております。資料の図は元の変換仕様で展開している例になります。

http-Z39.50ゲートウェイ(クライアント)は、統合情報検索環境という商品の1機能として提供いたします。資料の画面は一例となります。画面展開は次の通りです。

  1. データベースリストから検索対象を選択して検索を実行します。
  2. 各データベースの検索結果件数が表示されます。
  3. 検索結果件数をクリックすると検索結果一覧が表示されます。
  4. 検索結果一覧から1件を選択してクリックすると詳細表示されます。

これは開発が完了しておりまして、現在京都大学様で評価中という状態になっています。

「ISO ILLプロトコル」に関して今まで研究会では話題にならなかったのですけど、これも標準化の一つかなと思いまして、開発状況だけご説明させていただきます。NACSIS-ILLでは1月末からOCLCとの接続テストを実施されていると思います。弊社のiLiswaveにおいても対応を進めているところでございます。項目追加のほうは画面上にマッピングが終わりまして、OCLCへの複写依頼まではテスト済みになっております。現在、テストサーバーのほうが受付機能のテストができない状況になっております。先日NII様のほうにお伺いましたら、2月初旬あたりにテストが可能になるということなので、それにあわせて受付機能のテストを開始いたします。

課題が3点あります。Z39.50ターゲットは、NII様の仕様変更にともなう書誌変換機能の修正が必要だということです。後ほどいろいろ質問させていただきます。Z39.50ゲートウェイは、利用者サービス(デリバリ)までつなげなければならないということで、複写依頼などをどういった形で提供していくかということです。「ISO ILLプロトコル」は、宛名・担当について国内でやる場合と、OCLC宛ての英文でやる場合と、文法形式が異なることです。弊社CATPクライアントだけの課題かも知れませんが、宛名・担当を分解した形で表示・入力するため難しいのです。4月の本稼動に向けて頑張りたいと思っております。

富士通からの説明は以上でございます。

[入江]早稲田さんのデモが始まる前に、ILLとか、そういう利用に結びつく、クロスサーチができたあとに、どういう風に利用に結びつくかという問題だと思いますので、これからやっていかなければならないと思います。

多言語対応(文字コードとMarc21)

1. 早稲田大学 (Unicode版 INNOPAC)

[荘司]早稲田の荘司と申します。よろしくお願いいたします。

INNOPACというシステムなんですが、INNOPAC自体がUNICODE版を持っているのでそれについて簡単に説明いたします。配布資料がございませんので、スクリーンをご覧ください。

こちらがINNOPACの本体で、こちらがデーターベースだとします。インデックスのデータベースと、ここは普通のローデータといいますか、入ったままのデータを蓄える2つのファイルを持っています。外から入力されますとテーブルがありまして、例えば早稲田にやってる例ですが、シフトJISのコードが入ってくると、それをアスキーコード、先ほど説明がありました7bitのアスキーに変換して、それを格納しています。もうひとつは、いわゆる正規化です。ノーマナイズを行ってインデックスのほうにも格納しています。これは文字が何であれ、すべて英小文字で格納する方法がとられています。ここで、我々のほうからINNOVATIVE社に注文したのは、メールに関しては、数年前だったので、インターネット上は7ビットしかいかんだろ、ということで、2022-JPで出すように、またレーザープリンタに出す必要性がありましたので、ESC/Pで出すように、といったお願いをしました。INNOPACの場合、この例では、テーブルがシフトJISと書いてあります。ですが、例えば、これはシンガポールの国立大学なんですが、GBを選んだり、EACCを選んだり、また、日本語の場合はシフトJISを選びなさいとあります。要するに、先ほどのテーブルを複数個購入すれば、ユーザが文字のテーブルを選択することが可能になります。元の内部データはアスキー1種類なんですが。次の例は、香港の中文大学なんですけれども、昔、我々はDOBISというシステムを使っていたんですけど、この大学もDOBISからINNOPACへ移行した中国語が入っているサイトです。ここではBIG5というコードで動いています。

ここに2つ機械の機というプレートを出しました。シフトJISでは2バイトなんですが、16進で8B40という機械の機というコードは、EACCコードでは、214552というコードになります。3バイトのコードです。INNOPACの中ではこの文字は8バイトになります。先ず最初にアスキーキャラクターの"{"、次にEACCの16進表記、最後にアスキーキャラクター"}"の8バイトです。つまり、一つの漢字コードに対して、シフトJISコードでは2バイト、EACCで3バイトですけれども、INNOPACでは8バイトという冗長なコード体系を持っています。一方、アスキーで設計されたINNOPACの内部機構を変えなくてもいい、という利点もあります。

先ほどのテーブルの絵がありましたけれども、このシフトJISコード、これとこの変換テーブルを、実際はUTF-8のテーブルなんですけれども、UNICODEの変換テーブルに変えるだけで、UNICODE版のINNOPACになります。ここで、ちょっと何故この文字を2つ出したかといいますと、内部的にEACCコードのこの頭、この1バイトが違うだけで、あとは同じコードを持っていますが、この二つは串刺しで検索されます。どうも内部的にマスクをかけている感じで検索をしているようです。推測の域を出ていないんですけれども。

右画面(シフトJIS)のほうで、著者名で陳さんを引きました。左側(UTF-8)のほうの、こちらでも同じ陳さんを検索します。一番最後のエントリーに飛びますと、陳さんという簡体字が出ています。シフトJISコード(右画面)のほうでも同じレコードに飛ぶと、データベースは同じですので、同じレコードにあたります。この文字はJISコードに無いので、コードページに無い文字は、カタログで使わない"{"、"}"を使った内部コードで表示されてしまいます。先ほど芝野先生のお話にあったのと同じ現象が起きています。右がわのシフトJISの普通に公開しているほうで見れば、なんとなく読める。こちらで見ますと、いわゆる簡体字で(中国語で)ちゃんと出てきています。UNICODE版のひとつの特徴なんですけれども、例えばこの中国語だけではなくて、ISBNで89で始まるのが、韓国ですが、それで検索すると、ここにあるようにハングル文字と漢字、あとダイアクリティカルマークのついたOの上に波打ったというかそういうデータが出てきます。実は、MARCを見ると、OCLCから購入したデータでして、OCLCから購入したデータにダイアクリティカルマークが入ったものがそのまま入っているので、そのまま出てくる。OCLCに入っていたそのままを使って、880をデータを取り込んでおりますので、OPACを見ますと、そのまま漢字かなハングル交じりというのが見える、という風になっています。

今やったような音標記号があるものですと、例えば、このようにいろいろな記号がついているものがあります。このデータも直接OCLCから取っているデータですので、いちいちこのような記号を入力したわけではないんですが、きちんと表示できるようになっています。同じ物をこちらの普通のシフトJISバージョンで見ると、出ません。こういった形で表示されるようになっています。同じINNOPACですが、カイロのAmerican Universityですが、ここも実は昔DOBISというものを使っていました。ここのインターフェースも同じです。arabicで引きまして、言語をアラビア語にして、ここもUNICODEにしますと、右から始まって、こう言う風にきちんと入っています。また、このアラビア文字でサーチにいくと検索されます。

ダイアクリティカルにつきましては、第一部のお話にありましたように、INNOPACではどういう風にしているかといいますと、このアキュートの文字、ノンスペースの記号があって、eがあるという、このMARC21のフォーマットも使っていいよということになっています。それをINNOPACでは、"{"、"}"を使って、E2というのを10進表記すると226になり、それとeという風に{226}eという6バイトで表しています。これは非アスキー文字に対してINNOVATIVE社がやってきたもので、漢字はここを伸ばして8バイトにしたという手法を使ったのではないかと思います。

文字は大体見えるけれども、入れるのはどうするんだという話があります。業務用画面に入ると、先ずターミナルタイプを選びなさいというのがあります。アメリカ的ないろんなターミナルが並んでいる、タイ語のターミナルとかもあるんですけれども、ここでUTF-8のターミナルを選ぶ。メニュースクリーンは残念ながらアスキーコードでしか返ってきません。新しいレコードを入れるときはFEPの問題があります。実際に早稲田でどうやっているかといいますと、中国語を入れてるチームは中国語のChinesewriterとかそのようなFEPを使っています。ここでは無いので、とりあえずIMEの文字一覧から選ぶことにします。例えば、245フィールドに何か文字を入れたい。これはUNICODEのCJK漢字ですね、これを選んで、リターンをすれば入ってきます。これで、中国語を入力することができます。もちろん、例えばハングルの場合でも、ハングルを選ぶとハングル文字も入っていきます。このようにしたり、OCLCなり、同じINNOPACを使っている館からデータ交換をやったりということで、入力しています。

[入江]時間があれば、と思っていたんですが、慶應も同じようなことをやっていまして、SQLサーバーで簡単に作ったデータベースで、慶應の買っている中国語の6割がOCLCにあったので、OCLCから中国語のデータはほぼ買っている状態です。問題なく入っちゃうんで、韓国語と中国語はそこから持ってきているんです。あとオリジナルだけ作ればね、書誌データは国際交換しなくちゃいけない時代になっていると、そのときどういうフォーマットを使えば交換できるのかと、日本のデータも外から持っていってもらえるには、どう作るのかと、やっぱりお互い交換しないとダメだね、というレベルで、OCLCばっかりあんなに儲かっちゃ困るけど(笑)っていうのもあるから。

ここでZの話は早稲田さんで最後にさせていただきまして、ここから新しい話になるんですが、先に説明をしていただいてからZの質問に行きたいと思います。

米沢さんのほうから今NIIがやっています、メタデータDBについての説明をお願いいたします。

メタデータDB

米沢さん [米沢]NIIの米沢と申します。

最後の話は、今までの話と全く違う話になってしまって、場違いな感じもするのですが、我々、NIIとして、新たなデータベースを作るということで、これについて皆さんのほうに、皆さんの方にというのは図書館システムの持つべき機能について、一つの問題提起になるのではないかと思って、紹介いたします。

NIIメタデータデータベースの構想ということで、今検討をすすめております。はじめに経緯ということなんですが、バックグラウンドとして、どういう状況なのかということを説明いたします。既に、大学図書館等ではメタデータ、つまりインターネット上の情報源に関する目録ですね、メタデータといっているんですけれども、この作成を数大学で開始しております。図情大、東大、東工大というのは、いわゆるサブジェクトゲートウェイというようなサービスをやっておりまして、国内外のインターネット上の情報資源の目録データというのを作っております。その他に、北大とか岡山の県立図書館に相当する総合文化センターというところでは、それぞれ自分のところで所有している貴重な資料を、画像を電子化して、なおかつそのデータをインターネットで公開しています。その公開する一次資料のデータに関するメタデータを作成して、それも公開するというサービスも行っています。ここら辺が大学として、あるいは大学図書館の機能としてこのようなネットワーク上の情報資源を発信していく、利用者サービスに展開していくというような徴候があります。

それから、2番目としましては、既にこのメタデータデータベースというのは、OCLC、海外で、かなり力をいれて収集し、発信しているわけですけれども、残念ながら、我々日本国内の情報に関しては、なかなか組織立った発信を行っていないということで、まず日本として、こういった情報をネットワーク上の情報資源のメタデータを発信していく必要性があるだろうということです。

最後ですが、共同に利用できるメタデータが無いという。さきほどOCLCのデータの話をしましたが、OCLCでは全世界の情報資源のメタデータを作って、そのメタデータをOCLCの参加館が有効利用するというような施策ができていますけれども、残念ながら我々日本国内にはない、ということで、共同利用できるようなデータベースを構築していこうとする動きがあります。

で、先行事例としてCORCと呼ばれるOCLCが運用しているメタデータの共同目録があります。これは詳細は一番下に書いてあるURLを見ていただければですね、どのようなことをやっているのかということを皆さんにも認識していただきたいと思いますが、このCORCの一番の特長は、サブジェクトパスファインダーというものを作るということなんですけれども、これは何かというと、メタデータ・メタデータといいますか、情報資源に関するインデックスリストみたいなものなんですけれども、いわゆる従来の図書目録、図書の形態の参考書誌というものの、ネットワーク版というものになります。例えば、経済なら経済の主題に関して、ネットワーク上の有用な資源が、これこれこういうものがあるというような、主題の書誌というのを、図書館側が簡単に作れるというものです。CORCに登録されているメタデータをリストアップして、簡便にサブジェクト書誌を作ることができるという機能が特長かと思います。このCORCのほかに、その他欧米では随分いろんなプロジェクトを立ち上げております。今回の資料には載せておりませんですけれども、欧州では欧州全体のプロジェクトして、DESIREというプロジェクトを立ち上げて、各種メタデータのデータ作成を進めているようです。我々、NIIとしては、どう取り組もうかといって考えたのが、ネットワーク上の情報資源の取扱と呼ばれる案で、これは、NACSIS-CATニュースレターの5号に掲載しております。狙いとしては、次のようなことがありまして、ここの図書館が一生懸命頑張ってもらって、相互補完的にみんなで共同作成しましょうということです。そして、教育上有用な情報資源のデータベースを作る。これは今我々も使ってますけれども、サーチエンジンと呼ばれるものは非常に便利なものではあるのですが、いろんな情報がひっかかりすぎて困ってしまう、もう少し絞って、セレクトした情報資源を提供していく必要があるのではないかと思います。

日本国内の各図書館の情報発信を支援する。例えば、A大学というところで、こんな有用なものをつくっていますというのを、紹介するための仕掛けになるのではないかと思っています。そして一番最後に、図書館システム、各大学のウェブサイトでこういったものを有効利用できないかということが考えられると思います。今OPACという大学図書館の目録は、あくまで自分のところで持っている資料に関する目録にとどまってしまうのですが、それから先の展開、図書館以外にある情報資源をOPACに結び付けていくことが考えられるのではないかと思います。一番身近な例としては、電子ジャーナルやそれに相当するものですが、OPACで検索して、電子ジャーナルがでてきて、じゃあそれを利用するときに、直接そのURLで電子ジャーナルのサイトに飛んでいくというような、サービスが考えられると思います。

さて、データベースの作成方法としては、共同分担方式というもので、当面は、各組織の各機関が自分のところで発信している情報を登録していこうというスタンスで考えています。将来的にはいちいち情報を一から作っていくのは大変なので、もともとその情報資源を作っている研究者の方とか、いろいろあると思うんですけれども、元々作っている方がメタデータをページソースに埋め込むようなところまで持ち込めればいいという風に考えています。いえ、持ち込む必要があると考えています。あとはここに書いてありませんが、自動的にロボット的にある一定のプロトコル、我々はハーヴェスティングプロトコルという言い方をし始めているんですけれども、ある特定のサイトに対して、特定のプロトコルで収集するというような、自動収集の仕掛けまで考えていきたいと考えています。

各参加機関は、自分のところで作成しているような情報資源を登録していこうというのが、セットAと我々は考えていますが、自分のところのものは責任をもってやっていこうというものをベースに、今考えています。その他に任意のグループ、例えば特定主題の理工関係分野とかそういったところの大学が協力して、その分野の情報資源のデータを登録していくということもできるようにしたいと思っています。

対象とする情報資源は、ある一定の評価基準で内容的にも、ある程度の基準を満たしたものと考えています。データ内容としては、ダブリンコアに準拠する標準的な項目を考えていきたいと思っています。その他典拠コントロール、主題情報の付加ということで、情報の品質とかを高めていきたいと思います。そのデータベースを構築するためのシステム、現在設計にはいっていますけれども、ここに書いてあるような基本機能をまず軸にしたいと思っております。基本機能としては、webベースの検索登録インターフェース、当面は我々のほうで開発したゲートウェイクライアントによってそれぞれ登録してもらおうと考えております。それから既存データベース、先ほど紹介したような、各大学で作っているものがありますので、これも取り込めるようなアップロード機能を備える、あと定期的にURLをチェックするような機能という、このくらいの最低限の機能で、当面は構築システムを実現したいと思います。それからその他特長としては、このようなことを考えています。先ほどいいました、ハーヴェスティングプロトコルによる自動収集というのが、2番目に相当するようなものですね。

今まで話したところが構築システムだったんですが、作られたデータをエンドユーザーに公開する検索システムは別途考えたいと思っております。NIIでまた別にポータルサイトと呼ばれるような、統合検索システムをまた別に企画しておりまして、そちらのほうで面倒みたいと思っております。

現在のスケジュールこのようになっておりまして、12月末から検討会議というのを開催して、システム設計、既存のデータとの連携とか、メタデータを利用した記述の文法、それから選定基準の検討というのに入っています。今年度内に最低限のプロトタイプシステムを作りまして、4月以降に試行運用を開始する、それでもってまた改造を加えた上で、4月以降また本格運用ということで、これから全国の図書館のほうにも、このような形で共同構築していこうという呼びかけを行います。以上です。

[入江]各大学いろいろ苦労してきたものをNIIが共同利用してやっていくという、新しいお話がきけました。それではあの、皆さんのご報告がありましたが、質問等をですね、まあ最初はNIIさんに対する質問が多いかと思うのですが、ありましたら、質問お願いしたいと思います。

第2部に対する質疑応答

[酒井]文字コードの話なんですが、入江さん、一定の方向性が見えてきたとおっしゃったんですが、ここにいるメンバーのほんとのコンセンサスかどうか、というのが私はちょっとわからないんですけれども、なので、もう一度確認していただきたいんですね。いくつか視点がありましたよね。元あるデータをどうするのか。今、たぶんメーリングリストの議論をみると、そのままでオンザフライでコンバートすればいいんじゃないか?という方向性だと思うのですが、あと、EACCに対してどういう対応をしていくかということ、それからMARC21とUNICODEをどうやって、一緒に考えるべきなのか、別に考えるべきなのか、LCに何か働きかけをするべきなのか、というようなのがありましたよね。その点についてまとめてください。

[入江]方向性という意味で、ここで確認するということを、あの最終的にですね、あと1,2回の会議の中で、ドキュメントを作って確認するという形にしていきたいので、これからの論議の中の結果だと思っていますけれども、こうだと、いう形で今やるのもまだ早いかなと思ってますので、メーリングリストの中で深めていってですね、一応1年ぐらいを目標で、決めるといっているので、それを確認していきたいと思っています。

[酒井]これからの議論だと考えればいいですか?

[入江]そうですね、そう思って頂いて結構です。ひとつは、オンザフライの文字コードのオンザフライについて、っていうのと、LCに対する、MARCフォーマットに対する見解というのも含めて、基本的にはこれから決めていけばいいとは思うんですが、当初、1回目に比べればある程度、話的には出てきているんじゃないかというレベルで、これから決めていけばいいんじゃないかと思います。

[酒井]文字コードの話でせっかく芝野先生がいらしているので質問したいのですがTC46が検討していたプラットフォームの話はSC2で取り込んで検討を始められたと。。

[芝野]:検討というかですね開発のレスポンシビリティをトランスファーしました。ですから過去TC46でやってたやつは今後のメンテナンスが今後SC2がやると

[酒井]その時に図書館屋が考えていることと芝野先生のようなコンピューターサイエンスをバックグラウンドにされる方とのギャップとかってあったのでしょうか。私はバリバリの図書館屋で慶應大学の酒井と申しますが、もしそういうことがあれば伺いたいのですが。

[芝野]一つはTC46でやってた仕事は2022のアーキテクチャーのもとでの開発だったのですが、きちんとエスケープシーケンスをとってなかったりですね、せっかく2022なのにそのエスケープシーケンスがないからちゃんと運用できないとかいう問題を過去持っておりました。実際にはその上最終的にはTC46でやった、ちょっと細かな文字ロットの話が出来なかったのですけれどもTC46で今までやってきた文字は何だったのかという問題もまだ抱えている。今それを徐々に洗い出しつつ、10646に足らない部分は追加するという形での作業と、順番に、TC46の開発していくコード、どういうところで使われているか分からない部分はいっぱいあるんですけれども全部ISOのキャラクターセットレジストリに登録するという作業が一回終わったと。

問題はですね、TC46の開発の時はトランスリタレーションもそうなんですけど、人が集まってワーキングができて、何かやったらその後解散してしまったよというのが多いんですよ。ですから、そういう時に図書館屋と言ってもどういう形の人がほんとに集まって、どういう形でできたのかが、も一つわからないコードとかがですね、そういうのが問題にはなってますね。

それと今度はSC2で俺が俺がって俺が偉いんで俺が一人で決めてるんだって言ってフォント屋が騒いでいるやつがいたりして。とってもいいかげんに処理したりするところも一部、両サイドでTC46にも出ていて逆にSC2にも出ていてという人がいたりですとかね、大きな分野毎によっての問題というよりは関与する人によっての問題が大きいというところですね。

文字コードの追加を。EACCとかCJKシソーラス、繁体字と簡体字の関係とかそういうデータがまだ準備が十分できてないんですよね。それから台湾の文字コードのように簡易ではあるんですけど、一対一の簡単な異体字コードというのは学問的には正確ではないというか、その辺に対してどういう形のことをやるかというのは今後の課題で大きく残ってると思います。EACCとは台湾のCCCTI異体字コードをビットストラクチャーの中にもちこもうという形で作って、それをINNOPACにつながれてるかと思うのですが、さっきのINNOPACの話でも、わりと簡単にうまく使えるところもあるんですが、それが各国どこにでも適用可能かという話があんまりないまま、先ほどJISでソートするととちゃんと並ぶのにって言う話がありましたが、一見ちゃんと風に並ぶんです。しかしほんとに正しいソートではない訳です。それと同じような細かな検討がほんとは必要なんですけどね。

[松永]NIIのCAT-PからMARC21のフォーマットのところで質問が2つと確認が2つなんですけれども。まず1点目の質問が880フィールドの順序性とかが各タグのところにつけていくのか880フィールド1ヶ所に置くのか検討中だと思うのですが、それが最終的に決定されるのはだいたいどこらへんをリミットに置いているのかということ、要はマイナーな仕様変更は全然問題ないんですけど、大枠が決まってしまうのがいつ頃かということと、それからローマ字に関して表示の時はローマナイズされて表示されるということなんですが検索に関してはどう考えているかと、確認に関してなんですが2ページ目のシートで言うと8番になりすが、ヨミフィールドからローマナイズデータを作成というところで対象フィールドが親書誌だけになっていますけれども、中位書誌があったときにはPTBNOからも順次切り出していくということで確認です。それから3ページにございます雑誌所蔵データに関してなんですがMARC21の852のタグのところにRGTNとありますが、これはまず間違いだと思うのですがCLNが対象でよろしいでしょうか。

[阿蘓品]確認についてはその通りです。大枠はこの線で行くんですけれども、並びの話がマイナーな話ではないということなので、少なくとも3月リリースを考えていますので2月中にはフィックスはしたい。ほとんどのところはフィックスしつつあると思って下さい。

[米沢]来週中には検討します。

[入江]それはNIIのホームページで公開されるんですか。

[米沢]この仕様を精度をあげて公開しなければいけないと思ってます。仕様書自体は来週中に。2点目の質問のローマ字の検索は出来ません。

[入江]ローマ字の話はこれまでもいくつかありましたが、国会さんが訓令で他がヘボンで,この辺の整理も次くらいにしていかなければならないと思ってるんですが、せっかく国立国語研究所の方がいらしてるのでローマ字関係で何かあれば。一言でもお願いします。

[横山]ローマ字表記に関する問題については、日本語情報処理をインターネット上でどのように扱っていくかということも含めて、政府関係でいろいろな動きがでてくるものと思われます。

[芝野]ローマ字系の入力用のローマ字としてJISの規格を作ってます。これまでのローマ字の整合的な議論が行われていない、すぐに日本式だ訓令式だヘボン式だ批判的な参照ばかり行われて、ローマ字会・ローマ字社であってもすべての日本語を対象にしていなかった。具体的には何が問題であったかというのは規格の解説等にもちょっと書いてありますので読んでいただければいいかと思いますが昔からやっているはずの訓令式、日本式というのは外来語の表記というのは日本の公用分の書き方の中に表記基準があるんですね、で日本語の中に外来語がたくさんあると、われわれのところでファイルとかディスクとかを訓令式でどう書くのというとローマ字会等ではそういう風なところまではローマ字での書き方を決めとらんという問題がありまして、京都のローマ字会でしたっけ、ローマ字社でしたっけ、が決めたのもごく最近です。IBNのSEの方がそこ入ってとっても新しい訓令式というのを提案されたりしています。一方では権威主義的な話で訓令式じゃなきゃいかん何とかじゃなきゃいかんと言う話がありながら、日本語入力、日本語情報処理ではどうしても必要ですから各社各様それぞれの検討をしながら日本語入力方式としてのローマ字はワープロの中、あるいはすべてのパソコンの中にインストールされている訳です。それも実はあんまり確実なドキュメントがなかったということがございまして仮名漢字変換用にJIS規格を作っています。逆にとらえるとTIでもCHIでもどっちでもええじゃんというのが仮名漢字変換の実務レベルの話ですので、文部省は訓令式ですかと言っても文部省のユーザーIDはほとんどヘボン式で書かれてたりしますので、いろんな複数のやつを許して普通の通常の毎日入力で使っている標準というのが仮名漢字変換のローマ字式で、逆にある意味でゆれを含んだ検索にもほぼダイレクトに使えるのじゃないかと思いながらJIS規格を作ってますので。データベース検索もちょっと参考にしていただけると。実際には学校で驚いたことにローマ字教育ってのは小学校で1時間くらいしかなかったんですかね。中学に入ると訓令式のローマ字を英語教育の中で教えよると。あなたの名前こう書くんですよ。とか日本の地名はこう書くんですよとか。で、駅に行くとヘボン式であると。パスポートを見ると外務省もヘボン式だとかですね。一方で実は最近最初のローマ字教育がどこで行われているかというとパソコンというか小学生にコンピュータを使わせるために仮名漢字変換の入力方式としてローマ字を教えているというのもありますので今後どんどん入力で覚えたローマ字をそのまま検索の時にも日本人、子どもたちがJIS規格も見て置いていただけると参考になるかと思います。

[横山]念のために申し添えます。ローマ字の綴り方につきましては、昭和29年当時の内閣総理大臣・吉田茂が内閣告示の第一号として出しましたが、訓令式でなければいけないとは書いておりません。ヘボン式や日本式も認められておりますし、おおむね一般の原則は示すけれど、慣習に従ってケースバイケースでよろしいですよという、緩い基準しか示しておりませんので、文部省が訓令式や日本式を強要しているというようなことは、一切ありません。

[入江]ローマ字の問題は大きな問題でして検索できるかできないかという問題と記述の問題と、図書館的には記述の問題も含めた形になってしまいますので、それについてはまた非常にローマ字の問題は入っていくとどんどん訳の分からない問題なので整理していきたいと思っております。先ほど酒井さんの方から出ましたように方向性としては出てきたけどどうなの、という話が確かにありましてただ1年間くらいをめどにしてある規格なりを発表したいと思ってますが、メーリングリストでも論議でもまだちょっとはっきりしてませんので、できるだけ早い時期にフォーマットなり文字コードについての考え方みたいなものの運営会議でまとめてたたき台を出していくつもりです。メーリングリストで論議していきたいなぁと思ってます。別にここは決める組織ではありませんが、メーカさんも集まってますし、ある方向性みたいなものは出していきたいなと思ってます。これから文字コードやフォーマットについてはある程度、論議をしながら具体的にいうと今はそこのレベルでして、内容についてはローマ字の問題。実際の検索なのでOPACの検索結果と出てくる結果が違っちゃいけないという論議もありまして、その後はbib-1のマッピングをどうしていくかという話になると思ってます。メーリングリストでの論議はフォーマットと文字コードの話とローマ字bib-1の論議を中心にやっていきたいと思ってます。そういう論議をやりながら皆さんの意見をうけて方向性を出していきたいとおもってます。よろしくお願いいたします。随分個人的な話なのですが,これを始める以前にはどうなるか分からないと思ってたのですがある程度話はできてきたと思ってますのでこの中で論議していきたいと思います。では皆さんメーリングリストの論議をお願い致します。次回ですが、まだ運営会議では決まってないのですが、NIIさんの仕様がでて実装された5月か6月にと考えています。図書館的にいうとOCLCのILLがZベースで進むという頃をめどに考えています。それまでにたたき台の準備と論議をすすめていければなぁと思っています。メーカさん開発されていってると思いますし、NIIさんの本バージョンで動いてOCLCのILLも動いていると思いますので日米間の協力関係やデータについても論議ができるかと思っていますのでお願い致します。

[新元]NIIさんのCAT-PからMARC21への変換についてALからさっきは700だけでしたが主記入と副出記入の違いは識別出来ないですよね。

[米沢]主記入フラグ見て100に行くものもあります。

[新元]検索はカナだけですか。

[米沢]カナで検索してローマ字を表示します。

[金子]今日はお忙しいところありがとうございました。限られた時間ということでまだ尽きない点もあるかと思いますけれども、メーリングリストで引き続き議論していただきたいと思います。ここまでで研究会を終わらせていただきます。


| 1 | 2 | 3 | TOP |