ChatGPTに泡を食う法曹界(改版)

一月十一日付けでThe Hillが「AI models frequently ‘hallucinate’ on legal queries, study finds」と題する記事をおくってきた。機械翻訳すると、「AIモデルは法的クエリで頻繁に『幻覚』を見る、との研究結果」になる。
urlは下記の通り。
https://thehill.com/policy/technology/4403776-ai-models-frequently-hallucinate-on-legal-queries-study-finds/?email=467cb6399cb7df64551775e431052b43a775c749&emaila=12a6d4d069cd56cfddaa391c24eb7042&emailb=054528e7403871c79f668e49dd3c44b1ec00c7f611bf9388f76bb2324d6ca5f3&utm_source=Sailthru&utm_medium=email&utm_campaign=01.11.24%20Tech%20JS

ここでいうAI model (AIモデル)とは検索エンジンにLLMモデルを組み合わせたもののことで、英語では Generative artificial intelligence (AI) modelと呼ばれている。生成型検索エンジンと訳しているようだが、生成型……と言われてもピンとこない。ウォークマンのように製品名や登録商標が普通名詞化する前例もあるから、現時点巷で圧倒的に多くの人たちに使われているChatGPTを生成型検索エンジンの代名詞として使うことにする。
記事中の“hallucinate”を機械翻訳では「幻覚」と訳している。機械翻訳には手をつけずに「幻覚」のままとしているが、拙稿中では場合によっては「勘違い」あるいは「思い違い」とする。またGoogleのPaLM 2やMetaのLlama 2には申し訳ないが、ChatGPTを生成型検索エンジンの代表としている。

筆者注:LLMとは
LLMと入力してググると下記が出てくる。
「LLMとは“Large Language Models”の略で、日本語にすると『大規模言語モデル』を意味します。 AIにインターネットなどから取得した膨大なテキストデータを学習させ、その知識をもとに、文章生成などの自然言語能力の開発・向上に役立てるディープラーニング技術です。2023/10/31」

ChatGPT3.5が言葉や文章を介した業務で禄を食んでいる業界に引き起こしたパニックには計り知れないものがある。マスコミや教育関係や法曹界の慌てふためきようからも影響の大きさが垣間見れる。The HillがChatGPTの限界を伝えているが、そこから限界を指摘した法曹界が揺るぎようがないと信じていた自分たちの権威や権益が脅かされまいかと周章狼狽している様がうかがえる。

まずざっとThe Hillの記事の要点をまとめておく。
「スタンフォード大学の人間中心AI研究所(Institute for Human-Centered AI)と規制・評価・ガバナンス研究所(Regulation, Evaluation, and Governance Lab)の著者らは、ブログの中で、LLMの信頼性について『重大な懸念』を指摘している」
「ChatGPTのGPT-3.5は69%の確率で幻覚を見、GoogleのPaLM 2は72%の確率で不正解を、MetaのLlama 2は88%の確率で誤った情報を提供した」
「生成人工知能(AI)モデルは、いわゆる『幻覚』が69%から88%の確率で発生し、誤った法的情報を頻繁に生成することが最近の研究で明らかになった」

筆者注記:なぜChatGPT-3.5を使ったのか?
ちょっと横道にそれるが、さけては通れない疑問がある。
バージョン3.5は無償で公開されているベータ版のようなもので、正式バージョン4.0(有料版 二十ドル/月)が二〇二三年三月十四日にリリースされている。無償のベータ版と有料の正式版では性能に大きな違いある。The Hillが参考にしたであろうStanfordの評価レポートは二〇二四年一月十一日に公開されている。
<Stanfordの評価レポート>
「Hallucinating Law: Legal Mistakes with Large Language Models are Pervasive」
https://hai.stanford.edu/news/hallucinating-law-legal-mistakes-large-language-models-are-pervasive
表題を機械翻訳すると下記になる。
「幻覚の法律: 大規模言語モデルによる法的誤りは蔓延している」

月二十ドル払えば4.0を使えるのに、あえて3.5を使った理由はなんなのか?ChatGPTは使い物にならないという結果ありきの検証だったのではないかと勘繰られかねない。立派な先生方ならわかっていてのことだろう。不思議でならない。

The Hillの記事の要点に戻る。
「これらのモデルは、核心的な法律問題や判例の中心的な判示など、より複雑な法律問題を出題された場合や、地方裁判所のような下級裁判所の判例について出題された場合に、より悪い結果を示した」
「また、法的な質問で誤った前提に反論できないことが多く、回答に対する自信を誇張する傾向があることもわかった」
「今日、LLMは、一般市民が法的助言を得るための簡単で低コストの方法を提供することによって、司法へのアクセスを民主化するという興奮がある。しかし、我々の調査結果は、LLMの現在の限界は、既存の法的不平等を緩和するどころか、さらに深める危険性があることを示唆している」
「理想的には、LLMは地域に根ざした法的情報を提供し、誤った問い合わせに対して効果的にユーザーを訂正し、適切なレベルの信頼性をもって回答を適格化することに優れているはずだ。しかし、現在のLLMにはこれらの能力が著しく欠けている」

Stanfordの検証レポートでは、墓穴を掘りかねないと想像することもなかったのか、だらしのない弁護士の話しまで持ちだしている。
「昨年5月、マンハッタンのある弁護士が悪い意味で有名になった。彼は主にChatGPTによって作成された準備書面を提出した。そして、判事はこの準備書面を快く思わなかった。裁判官は『前例のない事態』とし、準備書面には『インチキな司法判断......インチキな引用......インチキな引用......インチキな引用』が散見されると指摘した。インチキな引用とインチキな内部引用 "が散見された。この『ChatGPT弁護士』の話はニューヨーク・タイムズの記事として広まり、ジョン・ロバーツ最高裁長官が連邦司法に関する年次報告書の中で、大規模言語モデル(LLM)の『幻覚』の役割を嘆くきっかけとなった」

筆者注:ChatGTPの出力を検証することもなく裁判所に提出した弁護士
お粗末な弁護士の件については、昨年八月二日付けで拙稿を掲載して頂いている。
『ChatGPTに騙された弁護士』
http://chikyuza.net/archives/128984
法律家としての適正と能力は、アメリカの法曹界が実施する厳正な試験Law Exam(日本でいう司法試験に相当するのか)によって精査されているはずだろう。法曹界みずからが審査して弁護士資格を与えた弁護士の体たらくを批判するのは、天にむかって唾をはくようなものにならないか?
だらしのない弁護士を排出しておいて、黎明期にあるChatGPTの性能が不十分で使用するのは危険に過ぎると結論を下すことができるのか?

ちょっと横道にそれた。The Hillの記事の要点に戻る。
「リーガル・トランスフォーメーション」
「ChatGPT、PaLM、Claude、LlamaのようなLLMの出現によって、法律業界は大きな変革の危機に瀕している。何十億ものパラメータを備えたこれらの高度なモデルは、処理能力だけでなく、幅広いトピックに関する広範で権威あるテキストを生成する能力も備えている。その影響力は、日常生活のさまざまな場面で顕著になりつつあり、法律実務での利用も増えている」

「目もくらむような数のリーガル・テクノロジー新興企業や法律事務所が、LLMベースのツールを宣伝し、さまざまなタスクに活用している。たとえば、証拠開示文書をふるいにかけて関連証拠を探し出したり、詳細な法的覚書や訴訟準備書面を作成したり、複雑な訴訟戦略を策定したりといった作業だ。LLMの開発者たちは、自分たちのモデルは司法試験に合格できると誇らしげに主張している。しかし、LLMが実際の法的事実や確立された法原則や判例から逸脱した内容を作成する傾向、つまり幻覚という核心的な問題が残っている」

The Hillの記事が伝えるStanfordの偉い学者さんの検証と評価、ご指摘の通りだろうと思うが、黎明期にあるChatGPTと確立された法体系の正確さの是非を論じることにどれほどの意味があるのか?ChatGPTは一般大衆の日常生活や知識や情報の習得の大きな手段となっている。辻褄の合わないレスポンスが返ってきたとき、それを真に受けるか、事実確認に走るかは利用者の判断に任せるしかない。社会におけるどのようなシステムも完璧はない。状況に応じて判断するのは人。その責任を理解しない人が使えば、先にあげただらしない弁護士と同じになってしまうだけのことでしかない。
機械翻訳を想像すればわかりやすい。世界中の人びとが機械翻訳を便利に使っている。外国語の知識の乏しい人は機械翻訳で訳した文章を参照してはならないと誰が言えるのか。

The Hillのニュースでは最も重要な点に触れていない。Stanfordの検証に関わった先生たちはその重要な点に触れるのを恐れているのではないかと想像している。ChatGPTは広く社会で使われることによって、その性能を向上させていく。三年後、五年後、更に十年後にはほとんどすべての弁護士がChatGPTをフルに活用しているだろう。三年後、五年後に法曹界が今日よりどれほど進歩しているのか?そのときChatGPTと法曹界の知識や情報の格差がどれほど残っているのか?全ての領域ではないにしても、その格差の優劣が逆転している可能性すらある。人の能力が五年や十年でとんでもなく進化することはないが、コンピュータを利用した情報処理能力は人智を越えた速度で向上する。
黎明期にあるChatGPTへの評価や批判は自由。誰も止めやしない。ただ、注意しないと墓穴を掘ることになりかねない。
2024/1/28 初稿
2024/3/13 改版