| 1 | 2 | 3 | TOP |
休憩中。。。

第1部に対する質疑応答

[入江]今の話である程度のレベルで整理できたかなと思ってます。

合成文字の話でUnicodeに合成文字がありますが、あれは使う方がいいんですが、使わない方がいいんですか。どっちでもいいんですか。

[芝野]実際のやりやすさとか後の処理を考えれば使わないで済ませるのが一番いいです。だからどうしても使わなきゃならないときしか使わないようにした方がいいと思います。

[入江]FEPで入力する時に合成文字を割り当てるような話はないと思っていいですか。FEPで入力するときに合成文字が入っちゃうFEPはあり得ないですか?

[芝野]まず合成文字の世界というのはFEPは想定しないんですね。ほとんどのIPAシンボルを含めてキーボード入力、仮想キーボードを含めて日本語のような仮名漢字のようなFEPは想定していませんので逆にキーボード入力であってもIME的な働きで連続して、例えばAの上にアクセントが付くとラテン1の方に変換するというふうなことは一部行われておりますが、自分は合成文字としていれたやつが合成済みにかわってしまうということがあっても逆の変換は多分ないと思いますね。

[入江]濁点半濁点は合成文字ですか?

[芝野]もともと208にあった漢字コードにあったやつは合成文字ではありません。1バイト文字も含めて。だからそこが10646で初めて日本語の濁点半濁点の合成文字ができた。例えば昔からそうですよね。今でもカタカナで入れて下さい。と濁点半濁点は別のカラムに入れて下さいと。やってますよね。1バイトコードも合成するのであればカの点々の方は右上にいなければいかいんですが、左上にいるんですね。コード表の中のやつも。その点201には明確に書かれています。多分みなさんJISの201をご覧になられた方はいないと思うのですが、これも5,6年前に改正しまして、ちゃんと国際規格に対応した厳密な規格に改正してますので、とっても古い30年くらい前のものをそのまま放ったらかしにしていたのを、ですから今の1バイトで合成するかしないかというのも。合成しません。

[入江]合成文字は1バイト系のアンセルのハンドリングの時に大変だったのですが、Unicode上、合成文字は作らなければいけなかったのですか?

[芝野]ですから先ほども言いましたように、発音を表記したいわけです。その時にはある言語学者が聞き取ったように表記したい。厳密な議論をしようとしますよね。その時に例えば関西弁というのはイントネーションによって意味が変わってくるんだということを言いたい訳です。その時に発音記号を付けるわけです。かなでは書けない、かなでは同じ表現になって東京方言で話すあるいは共通語で話したときには発音はイントネーションによって意味が変わるようなことはないのに関西弁にはこういうのがありますよ。そうすると普通のローマ字で書ける世界ではダメなんですね。本質としてIPAシンボルだとかあるいは新しい言語、今までも例えばウルドゥー語はトランスリタレーションの標準がないよ、でもウルドゥー語のときにトランスリタレーションするときにはアラビア語とかペルシア語とかその周りの言語とは違う形の表現をしたい訳ですね。発音が違うんだよと。そうするとウルドゥー語のトランスリタレーションの時に使ういろんなダイアクリティカルシンボルというのは既にあるアラビア語のトランスリタレーション、ペルシア語のトランスリタレーションとは違うよとつけたくなる訳なんです。

問題は言語学者とは文化人類学者とか学者一人ひとりみんな勝手なことばかりしてるんです。

どうしても必然的にそういう使われ方を、プリコンポーズドフォームというか合成済みのやつが安定していないものを表記するのがトランスリタレーション用のラテン文字でありIPAの発音記号、IPAというのは国際音声字母と訳したりしますが、International Phonetic Alphabet アカデミックスタンダードなんですね。

もう一つはアジアのナショナルキャラクター具体的にはデバーナガリ、チベット、クメール、ラオ語とかはもともとアラビア系からずっとスタートして子音が主であって、母音の数が少なかったり、そういう認識を持った文字はどうしても周りがいろんなものを付けたがるんですね。あの辺りは合成がないと書けない体系にUnicodeでもなっています。

[入江]JISコード表そのものはUnicodeにならなかったのは何故ですか。

[芝野]新JISの第三第四水準は基本的にはUnicodeに入ってます。問題は世の中に自分で仕事をしないで、よく分からないのに因縁をつける人がいますが7ビット8ビット系と16ビット32ビット系と二つがあるんです。今私JIS漢字辞典の仕事を増補改訂版の第3第4を含めたやつをしてますが、もう数ヶ月で出せると思ってますが、それのデータ処理の時にはシフトJISが便利なんですね。Unicodeだと言ってもUnicodeが常に全部動く訳では無いんです。perlでプログラム書いてシフトJISでやってシフトJISで印刷するわけです。それが今、目の前でシフトJISだとすぐ動く訳です。UnicodeUnicodeだといっていろんな反対をしても、問題なのはコードは何でもできるようにするべきなんです。ちゃんと真面目に私この文字を使いたい、子どもたちの教科書の文字が書けないとかある特定の人の名前が書けないとか、日本の昔からの地名が書けないとか、般若心経というのはよく分かってますけど江戸時代の常識だった千字文ってありますね。みんな般若心経も千字文も小さな世界なんですけど、そこにも般若心経に3文字書けないねとか小学校で教科書の字が書けないねとか、中学の理科でろ紙のろってさんずい編に戸って言う字がないよとかそういのが分かってしまって、こっちのやることは何かというとそういう文字を洗い直してどこでも使えるようにすることである。そのために国際的に持っていくためには日本でちゃんとした仕事をして7ビット8ビット系日本国内のものを作って、それを国際登録簿に登録するというのが国際的な手続き。ほんとは変な日本人が邪魔しなければもっと早く、あるいはBMPに全部いれるとアメリカ人を連中を脅せたのに、日本から行ってる日本人が反対したせいでBMPに全部はいれませんでしたがUnicodeには入ってるんですよ。必要なのは日本で必要とする文字をどのコード系であっても使えるようにすることが私に求められた仕事だと思う。Unicodeでもあいつらがいらんことを言わなければ、さっきのハングルは7,000文字の領域を使い潰して11,000字を、つまりマイナス7,000プラス11,000やったんですね。ハングル文字をUnicodeに入れたいからです。そのとき日本のUnicode出たやつはUnicodeコンソーシアムに出ている日本の委員は何をしたかというと、そんな日本が勝手にして日本のやつが大切だからとアメリカ人を脅してあってですね、そいつらはJISの213が大切だからそっちに決まっているやつを入れると言ったのに日本の委員が日本のわがままはよくないと言って一部サプルメントに落としたんです。あれですね。今の田中真紀子がいじめられている外務省の世界ですね。何にもないときに片一方で10646で全部動きますか?いろんな会社が反対しました。おたくの持っているメールのソフトは、おたくの持っている業務ソフトはUnicodeだけでしか動かないですかってUnicode動かないじゃないですか。基本的にはUnicodeをちゃんとサポートして今安心して使えるものは何かというとインターネット系、マイクロソフトとジャストシステムはUnicode入れ込んでますからこの2つはほぼ全部いけて、あとSQL、DBMS系が全部いけます。あとインターネットのブラウザ系。でもそれをちょっと越えると動かないケースがいっぱい出てくるんですね。プリンターにUnicodeなげてもなかなか出ませんよね。でもシフトJISぽーんと投げると第3第4水準でもすぐに出ますよ。213はいろいろ言われましたが、出てすぐにフリーウェアが出た訳ですよね。富田さんところの青空文庫なんかは、第3第4を開発にもご協力いただいただけじゃなくって、実際にフリーウェアで規格が出てすぐに青空文庫なんかはネット上で見える訳ですよね。何か無理矢理使いがっての悪い方にするというのは、政治はそういうこと、それこそ鈴木宗男のNGOの何とかみたいにけしからんから出るなみたいなことがあるかもしれませんが、技術者としては何をするのが正しい方向かと言えば、あらゆるところで日本の文字が使えるようにというのが日本としては本来やるべきことだと思ってます。技術を無理矢理押さえるというのではなくって自然にというか市場に任せるべきだと思うんです。だからシフトJISで今安いソリューションがあれば、それが買えるのであればシフトJISで使っていて、将来にわたればUnicodeにコードコンバートすればええなと思っていて、それで行くというのも一つの手だし。それは市場に任せればいいわけですよね。市場はJISの規格でこっちの規格を廃止したらシフトJISを使うのをみんなやめるのか、やめませんよね。やるには焚書坑儒でもしないと。シフトJISののっかてるデータ見たらみんなたたきつぶしてシフトJISのコンピュータ叩きつぶして、シフトJISのプリンタ−潰して。これはJIS規格に合ってないからというふうなことをよく聞きますが、JISとかISOの委員長っていうのはそういうことを考えているのではなくってマーケットが正しく、利用者の弁、利用者とか産業界が正しいものいいものを安い物を使えるようにすること、それを規格の権威でつぶせという論調を私は全然賛同しない。

[入江]第2部に移りますが、ここで芝野先生にご質問がありましたらお願いします。

[中島]Unicodeのソートをしようと考えていて、JISだとアジアのアが来て、Unicodeだと数字の1が来てるのでUnicodeの漢字の順番は誰が決めたのか知りたかったのですが。

[芝野]まずUnicode順というのは何かというと康煕字典をもとにしたの部首画数順。康煕字典にないものについては康煕字典に準じて部首画数順にしようという形で並び順を決めました。例えば日本語をちゃんと並べるためには、先ほど最初の方にちょっとご説明いたしましたけれどJISで4061という日本語昇降順番というのを作っています。これはこの規格はYAHOOの検索なんかすると出てくる並び順はVACSというVJEの会社がJISの昇降順番に合わせて並び順を作ってますが、日本語での並び順は日本語昇降順番に本来ならなければならなくって、JISコードが第1水準のあいうえお順というか代表音順で並んでいるというのは必ずしも適切な並び順にはなりません。本来ちゃんと並びを考えるとすれば、別の日本語で正しい並び順にするという処理をする必要があります。

例えばUnicodeで全部入っているからと言って、中国で、例えば毛沢東全集という字を入れました。Unicodeで入っています。それを日本でそのまま使えるかというと使えません。Unicodeだけがそれで他言語環境のソリューションか解になっているかというとそれは間違いです。中国の MainLand Chinaで書くと、簡化字で書くわけです。日本だと常用漢字で毛沢東と表記する。その変換は必要です。日本のふつうの人は、毛沢東全集を簡化字で書かれても、分からんわけです。あるいはその毛沢東全集の中のいろんなタイトル、あるいはもっと簡化字でばーっと並んだものは、中国語としか思えないわけですね。中国語なのです。

コードコンバジョン、Unicodeの漢字の中でのコードコンバージョン、中国語から日本語に変換するということが必要です。

ですから同じようなことはですね、どこでも起きるんです。例えばアラビア語もですね、アラビア文字の国際規格は、ドイツのリンでArabic taskforceというのができてやったとか。でもそれでもですね、方言字があったりするわけですね。エジプトで使われているアラビア語の正書法というものと、それと例えばサウジアラビアは違ったりします。そうしますと、アラビア文字ブロックの中で、エジプトで使うアラビア語と、サウジアラビアで使う表現に変換が必要なのです。

ですから、なんかUnicodeになったからといって、そこで言語とかある特定の地域あるいはある特定の分野での用法の違いというのは、ちゃんとやらんといかんことはあるわけです。

でもっと、卑近な例というか、ちゃんとした例というか、日本の独特の例で考えますと、日本の中でもですね、テキストが電子化されたと。でそれでですね、いつでも使えるかといったら使えません。ちゃんとした日本語だと、縦書きを横書きに変換は自動では全部できません。だから一部自動でできることもある。たとえば、日本もですね、正書法の中で横書きは公用文の書き方によると、,(カンマ)。(まる)なんですね。で、縦書きは 、(点)。(まる)であるとか。あるいは横書きの文脈では、普通はアラビア数字で書くわけですが、縦書きの文脈では漢数字を使ったりするわけですね。そのときの位取り表記が違ったり、ですから、縦書き横書きという同じ日本語の中でも、テキストは、いつでも使えるものじゃなくて、変換が必要なことがある。

で、ましてやUnicodeで入れたからといって、それで、言語問題が、あるいは、多言語問題とか、世界中のどこでも使えるというんじゃなくて、Unicodeの保証するのは、日本語のコード文とそれが世界中どこに行ってもそのままで動く必要はないわけ。2022だと、同じコードポイントでも意味が変わってしまうことがあり得るわけです。でも10646の世界では、それは変わりません。ただし、我々が本当にやりたいのは、中国で入力された、「毛沢東全集」の書誌が入力されて、それを日本で、例えば早稲田大学とか慶應大学とかで、書誌情報として公開して北京大学とやりとりをすると。そういうときには実は、見せるところは、どっかで、基本的には割とストレートですけど、1対1のではない完全自動化ではないコードコンバージョンを必要です。例えばですね、日本の常用漢字の、弁護士の弁という漢字は、花弁の弁と弁護士の弁とはもともと違う字だったのが、同じ字にしてしまったわけですね。異体関係というのは、いろんなところで異体字というのは、1対1で相互に変換可能だと言いますけど、そんなのはウソで、基本的にはある関係はこっちからこっちに1対多の一方通行の関係だと思って頂いて、それが自動的に全部できるんじゃなくて、人の介入とか、意味的な理解も必要とします。

最後の結論としては、Unicodeを使ったら、それで多言語処理は全部終わりよ、というのはウソです。ただし、Unicodeが何を保証しているかというと、世界中で文字化けなしの情報交換・情報処理、世界中で文字化けなしで、表示から蓄積からそういうものが全部できると。ただ、それは言語とか国境を越えるツールではないと。

[入江]ありがとうございました。他に質問あるかた。

第2部 Z39.50をめぐる仕様の整理と事例報告

[入江]無ければ第2部に入らせていただきたいと思います。第2部ですが、第1回目の話をうけまして、Z39.50というシステムの考え方についての、整理をしていくという風になっています。で、基本的に僕らの考えてきたことで、下のほうから攻めていこうということで、まず文字コードから攻めて、そしてフォーマットを攻めて、ある程度の共通理解を取りながら、上位に上がっていこうと思っています。文字コードについては、ある程度の結論的なところは、出てきているのかなと思っています。もう一個上位に上がると、今度は、フォーマットの問題があると。つまり、データ交換上の共通的な交換できるフォーマットをどう考えるのかっていうのがあります。で、日本においては、多くCAT-Pというフォーマットが、交換フォーマットとして使われているのですが、それも含めて、じゃあ国際的にはどういう交換フォーマットがあるのか、具体的に何を用意するのか、クロスサーチというのが現実的に非常に増えている中で、どう考えていくのかという問題があったかと思います。それで、MARCフォーマットという考え方の中で、ローマ字なり、Zの実装についての現状の整理と報告をお願いしたいと思います。

若干順番変わりまして、早稲田さんのデモが一番最後にということになりましたので、まずはNIIの阿蘓品さんのほうから、CAT-PからMARC21へのコンバージョンの仕様と考え方の説明をしていただこうと思っています。次に、システムの実例としまして、新日鉄さんの(LVZへのZ39.50)実装のご説明と、慶應のほうの(Z39.50)実装の説明を行います。あと富士通さんのほうで、現在開発されている(ソフトウェア)の説明をしていただきます。その後に、早稲田さんのほうのUnicode版のINNOPAC、の説明を受けたいと思います。早稲田さんはUnicode版のINNOPACを使われていて、中国語等のデータも整理をされていると聞いていますので、興味深い話がうかがえると思います。

その後に、NII・米沢さんのほうから、新しい動きとしてあります、メタデータDBの話があるそうなので、それについてのコンセプトと今後の方向についてお話を聞きたいと思います。

その後まとめとしまして、質問等と、次回の課題を確認しまして、第2部としたいと思います。

それでは、最初にNIIの阿蘓品さんから、CAT-PからMARC21への変換の説明をお願いいたします。

阿蘓品さん

1. MARC21への変換仕様 (NII)

[阿蘓品] NIIのコンテンツ課の阿蘓品と申します。本日はですね、私どものほうで今度リリースいたします、総合目録データベースのZ39.50ゲートウェイサーバーの話題を、中でもCAT-PからMARC21への変換の部分をですね、ご紹介したいと思います。

今現在ですね、仕様につきましては、調整を重ねている段階ですので、これで決めとか、決まりとかいうレベルではないのですが、おおよその流れはこういう形でいくという話を、ここでしておきたいと思います。

そして、経緯とシステム構成、基本仕様として、CAT-P・MARC21の変換、最後に課題ということでまとめたいと思います。

経緯といいますと、これまでのやってきたことなんですけど、まず、ご存知の方もいらっしゃると思いますけど、昨年の6月末からプロトタイプ版ということで、Z39.50版の検索というのが可能になっております。これは、詳しくはwebページのほうにアトリビュートの解説とか載っておりますので、まあ後数ヶ月の命かもしれないのですが、そういうプロトタイプを出しています。こちらではCAT-Pの教育用サーバーが検索対象となっております。教育用サーバーというのは、本番の総合目録データベースで使っているものではなく、教育用とか研修用とかに使っているものです。ので、本番用とは中身が異なります。

改訂版というのが今回、新しくバージョンアップするものですが、そのプロトタイプ版の仕様でですね、少し荒っぽく作っていた部分を、緻密にしたりですね、これからお話しますけど、ローマナイズを自動で作って、それを245に当てるとかですね、ということをやろうと思っています。

検索対象サーバーは業務用をあてることになります。年度末にリリース予定ということになっております。

システムの構成ですけど、ゲートウェイサーバー(というのはオレンジ色で書いたところですけど)、各クライアントからここに見に行って頂いて、実際その中ではCAT-Pのクライアントがはいっておりまして、CAT−Pのサーバーのほうに全部、検索とか、メッセージを流して、また受け取って、Zで返すということになります。

基本仕様につきまして、これはプロトタイプとかなり共通はしているんですけど、一応おさらいということで、あげておきました。まずサポートしているものは、基本的な3つのサービス InitとSearchとPresent。接続と検索と返戻でしたか。ヴァージョン2に準拠するということになっています。

検索なんですけれども、一般的なクエリタイプ1とBIB1を再現しております。属性の詳細に関しましては、私どものホームページのほうで公開しております。

対象なんですけど、図書書誌所蔵のファイル、および、雑誌書誌所蔵のファイル、ということになっています。一般のZのターゲットでは所蔵がいっぱいついているところはあまりないのですが、私どものところでは、今回所蔵もひっぱってきてZで返すということを実現しております。で、予定なんですけど、デフォルトでは、図書も雑誌も全部一緒に検索して、個別に図書だけとか雑誌だけとか指定して検索できるようにもしようかなと思っています。

今のが検索の部分ですけど、戻しの部分ですが、戻す項目は、簡略表示と詳細表示の両方に対応します。B、Briefのほうは、CAT-PでいうところのEditタイプ1、簡略な項目だけを戻すつもりでおります。対応するレコードはMARC21と、NACSIS CAT-P、これはSUTRSと同形式と書いてありますけど、SUTRS式で、実際入っているデータをだらだらと返すということも一方で用意しております。

提供文字セットということで、書いておりますが、先生の話をびくびくしながら聞いておりましたが、UTF-8で返すというものと、ISO-2022-jpで返すという2通りの口を用意したいと思っております。プロトタイプではEUCでも提供しておりましたが、今回は中止したいと思います。

これから本題なんですけど、CAT-PからMARC21への変換の仕様の一番大きいアウトラインと言うか、今回どういう風にしようと考えているかと申しあげますと、まず一つ、一番大きいのは、タイトルなどのローマ字表示を実現する、これはどうするかと申しますと、ヨミの部分からローマナイズ形を自動作成するというやり方をとっております。もう一つ、ローマ字と対になる形で、もともとの日本語形があるわけですけど、これはMARC21のリンケージのフィールドである、880の部分にマルチスクリプトでセカンド言語をいれるというのがありますので、そちらの方に対になる形で割り当てるということを考えております。そのような形で、変換仕様をプロトタイプより詳細にしております。例えばPTBLとか階層が多いものも展開して、表現するようなことも考えております。

まずその、ローマ字の部分を紹介しておきますが、ローマ字の方式について、ローマナイズは訓令とかヘボンとか、ヘボンにもいろいろあるようなんですけど、また個人のようなものもあるようなんですけど、今回は、LCで採用している、修正ヘボン式と言いますか、modifiedヘボン式というのを採用したいと思っております。北海道は、長音記号が上にくっついているんですけど、それが入ることになります。新聞というのは、shimbunというのはmとなるヘボン式があるんですけど、それじゃないんですよ、LC方式ですよというのを書いています。ISO-2022-jpのほうで提供する場合は、長音記号とかは、落とした形で提供したいと思っております。

ヨミのフィールドからローマナイズデータを作成するわけですが、対象となるフィールドはここにあげております。CAT-Pに慣れ親しんでる方は、だいたい察しがつくかと思うんですが、ここに本タイトルとか内容著作注記とか書いてあるんですが、「のヨミ」というのが入ります。本タイトルのヨミ、内容著作注記のヨミ、その他のタイトルのヨミ、親書誌タイトルのヨミ、という形で、カタカナでヨミが入っております。分かち書きされたヨミが入っております。こちらからローマナイズのデータを自動的に作るというのを実現しております。

で、文字ばかりで恐縮なんですけど、ローマ字化と繋がっていることなんですけど、880というフィールドがあるんですけど、そこへの割り当てなんですけど、ヨミ形がある場合は、ローマナイズ形を作る場合は、日本語系が別にあるんですけど、その場合に880を使います。ローマナイズ系を245とかですね、基本一般記述項目にわりあてまして、実際の日本語の形が入っているTRとかCWAとか、VTとか、は880のほうに割り当てます。その場合ヨミそのものですね、カタカナで入っているヨミそのものは、MARC21のほうには割り当てず、捨てるということになります。ちなみにですね、ヨミのないもの、つまり欧文のデータは沢山はいっていますが、わざわざこんなことはしませんで、そのままタイトルなりを245とかに直接割り当てます。あくまで日本語系があって、ヨミがあると言う場合に、ローマナイズして、880への割り当てをするという処理を行います。これは、でっちあげた例なんですけど、細かくはお手元の資料をご覧になっていただければいいと思うのですが、タイトルがあって、TR。タイトルと責任表示のフィールドなんですけど、こちらがCAT-Pです、左のほう。右のほうがMARC21なんですけど、タイトル東京文壇事始 巌谷大四著というのがありまして、ヨミがこう入っております。このヨミの部分からローマナイズしたものが、こちらの245の方にこういう具合に割り当てられると、本タイトルとあって、関連情報がサブフィールドのbのところに入るということになります。

それと、PTBLのヨミですね、角川選書という親書誌のシリーズ名が入っておりますが、これが440番のところにローマナイズされて、割り当てられます。あとは、巌谷大四という著者名ですね、統一標目形ですけど、こちらのヨミが、ここですね、あ、これ逆転してますね、こちらのデータが上です。ローマ字形が700のところに入ります。件名も650のところに、このように入っております。あとで触れますけど、所蔵もこんな感じで852のところに入っております。これはですね、間違いではなくて、このまま日本語のまま入ってくることになっています。これも後で触れますけど、例えば出版事項ですとか、ノートはしょうがないですけど、こういうヨミが無い部分は、そのまま260とかにそのまま割り当てられることになります。

あとは細かいことなんですけど、その他のヨミというのがありまして、中国語のピンインが入っているフィールドなんですけど、この場合もそのデータをそのままローマナイズ形として採用します。なんとかVRというフィールド名称になるところです。

今まで紹介しましたのが、ローマナイズと880のからみの部分ですけれども、その他の部分も詳しくは紙のほうでご覧頂いた方が、じっくり読んだ方が頭に入りやすいかなと思ったので、いくつかの変換のルールの主だった例をあげてみました。最初、巻冊次表示VOL、1巻2巻3巻・・・といったVOLのフィールドがあるんですけど、こちらはMARC21は020というところに割り当てます。VOLはリピータブルなんですけど、これもMARC21でパラレルにリピータブルでつけていくということにしています。内容著作注記、著作が図書の中に含まれている場合に、このCWというフィールドを起こすんですけど、こちらはCAT-Pのほうではリピータブルで、入っているんですが、MARC21では505というフィールドをフィールド1つでサブフィールドを展開していく形で入っています。ちょっと見にくいんですが、$gというのがパートとかを表す部分なんですけど、それが入ります。CWTという元のフィールドでは、コロンスペースというのを入れて、それより前なんですけど、番号等ということになりますので、その部分があれば、ここに持ってくるということになります。無い場合もあります。$tのあとが内容著作注記のタイトルの部分ですけど、そのものが入ってきて、$rにCWAの部分ですね、こちらは責任表示、スラッシュ以降の部分が入ってくることになります。当然もとが日本語形の場合は、ローマナイズ形に変換したものがここに写し込まれます。CWAについては、ヨミが無いので、実際ここに入ってくることはあまり無いと思います。複数の内容著作注記があったばあいは、−−でつないで、また同じ$g$t$rで、複数あったら、−−でつないでいくと、言う形にしております。

親書誌。PTBLのフィールドなんですけど、こちらは440番、シリーズの部分に割り当てます。こちらもですね、そんなに難しいことは必要なくて、シリーズのタイトルとシリーズの番号のところにタイトルと番号が割り当てられることになります。あまりないんですけど、やっかいなのが中位の書誌というのがありまして、三階層目以上のものが入ることがあるんですけど、CAT-Pの中ではPTBNOのところに書き込む文法があって、そこに書き込むんですけど、そこに記述がある場合は、440を繰り返して対処するということにしております。以上がリピータブルがあったりする項目についてでした。

最後にですね、所蔵形について紹介しておくことにしますけど、図書の所蔵データにつきましてですね、CAT-Pのほうです。これは所蔵データの全部ではないんですけど、この項目を変換の対象といたします。所蔵館の略称とですね、FA番号、LOC配置コード、これは無い場合もあります、そして、VOL(巻冊次)そのVOLとCLN請求記号、登録番号RGTNが組みになって、場合によって書誌のほうのVOLに応じて、自分のところの図書館がどれだけ所蔵しているかによって繰り返す場合があるんですけど、これに対してMARC21のほうは852のフィールドを使います。$aのところに所蔵館の略称と()に入れてFA番号を入れる、LOCがあれば$bのところ、で$iのところに実際の所蔵データを入れると、もし複数の巻冊を所蔵している場合は、その$iの繰り返しで表現することを想定しております。

雑誌なんですけど、雑誌の場合は図書と違いまして、所蔵のデータ部分ですね、HLVが所蔵の巻次、HLYRが所蔵の年数で、CONTという継続表示があるんですが、この3つの部分、これは繰り返しはないんですが、この部分は866の方にいれます。つまりですね、852と866の組み合わせで必ず対になって所蔵を表す方式になっております。つまり、例えば雑誌の所蔵が10件あったら、852,866の組み合わせで、852、866、852、866・・・と10回繰り返しが並ぶということになります。

最後に課題と現在進行中の検討事項について書いてますけど、ヨミがないCAT-Pフィールドへの対処ということで、ノートはしょうがないとして、例えば出版事項、ですね、この辺をなんとか、救う手立てはないかなあということを考えております。もう一つ、MARC21のタグの順序と書いておりますが、これは何かというと、先ほど何の説明もしなかったのですけど、880に展開してみた例というのを明治の階層ということでお見せしたと思うんですけど、10枚目の奴ですね、これですね。440がきて880、245がきて880、650がきて880という形で、対にして表示をしてみました。これは会場の皆さんで詳しい方がいれば教えていただきたいんですけど、このタグの順序っていうのはですね、もとになるタグの下に出すというのは規約に反しないのか、ということ、分からなかったんで、書いてみました。あくまでタグの番号順に出すもんだということであれば、そうしなくてはならないとは思うんですけど。所蔵形が850番台に入ってて、すごく長い場合もあるんですね、その後に880が出てくるって言うとなんだかなっていう気はするので、こういう出し方も可能ならば、それにチャレンジしてみるのもいいかなという気はしています。

で、その他として、MARC21とは別の話になってくるんですけど、Z39.50の基本機能であるExtend機能で、データの更新をするという機能がありますが、これが利用可能であるかということ。つまり、Z39.50のセッションを通じて、CAT-Pを使うがごとく、書誌なり所蔵なりのデータを更新するということを今後検討していきたいと考えております。以上急ぎ足で、総合目録データベースの今度リリースいたします、Z39.50サーバーの概要についてご説明いたしました。以上です。

[入江] 多分質問いっぱいあると思うんですけど、時間もないので、後でまとめて受けたいと思います。芝野先生もいらっしゃるので、ここでの基本事項だけ確認しておきたいと思うのですが、MARCフォーマットというのはアプリケーションレベルでのデータ交換フォーマットであって、ユーザーインターフェースではないということです。アプリケーションレベルでの交換フォーマットは、国際的に標準化される傾向にあります。このような中で、日本から出している書誌フォーマットが、その国際標準からみて問題になっています。つまりアプリケーションレベルでの国際交換フォーマットという考え方を、国内でもっと明確にしていかなければならないということです。また、そのフォーマット交換のプロトコルとして、Z39.50が最も普及しており、それに対応する必要があるというのが、基本的な共通理解だと思います。

ということで、補足させていただきました。

それでは、新日鉄さんお願い致します。


| 1 | 2 | 3 | TOP |