2025年03月06日公開
第9回 生成AIに関する10の重要キーワード
Ⅰ はじめに
多くの皆様の協力を受け、ついに松尾剛行『生成AIの法律実務』(弘文堂、2025)が刊行されることとなり、弘文堂の「近刊」に掲載された1。筆者として、本書の美味しいところを駆け足で概観するため、生成AIの重要キーワード10個をご説明したい。ここでは、いわゆる「AIをよく知らない」人向けの基礎的キーワード5個と、「AIを知っている人」のための応用的キーワードに分けてご説明することとする。
なお、国際商事法務研究所様には、会員無料・非会員有料での新刊セミナーをご主催頂くこととなった。以下のURLを参照頂きたい。
https://www.ibltokyo.jp/seminar
1)https://www.koubundou.co.jp/book/b10108038.html
Ⅱ 基礎的キーワード
1 (追加)学習
AIにデータを投入すると学習の対象とされてしまうかもしれない、ということは多くの人がご存じなのではないか。ここ、ユーザが利用する際にプロントやRAG(下記3参照)として投入したデータが学習されると言う文脈における学習は、既にAI(学習済みモデル)が存在するところ、そのモデルを改善するために追加的に学習するので、「追加学習」と呼ぶ。追加学習の代表的な方法がファインチューニングである。
このような追加学習は、性能向上のために積極的に行われている。例えば法務関係のAIをより良いものとするため、法律書や判例データを追加学習させれば、元のAIよりもかなり法律家らしい表現を行うことができる。
しかし、皆様が生成AIを利用する際に、学習がONのまま、安易にデータを投入すると、そのデータがAIの学習のために利用されてしまう。その結果として、第三者のユーザのところに皆様が投入したデータが表示される可能性がある。例えば、生成AIではないが、AI翻訳で、筆者は社名や代表者名を削除して、学習をオフにしたビジネスアカウントでとある契約書の翻訳をさせていたが、翻訳結果に知らない会社名とその代表者名が表示されたことがある。これは、おそらく別のユーザが学習がオンの無償アカウントで、社名と代表者名を削除せずに類似の契約書を翻訳させ、そのデータと筆者がアップロードしたデータの類似性が高かったことから、当該ユーザが意図しないまま、筆者のところにこれが表示されたものと推測される。
そこで、基本的には、性能向上を目的として学習させる対象として、どのデータを選ぶのかをよくよく考えるべきである。意図的に、目的に適合的で、かつ安全な範囲で(追加)学習をさせることは良いこと2。これに対して、そのような確認を怠った結果、自社のデータ等が意図せず学習されてしまうことは機密漏洩の可能性があるので避けなければならない。
なお、特にAIベンダへのデータの提供との関係については、III3を参照のこと。
2)例えば自社専用AIとして、他社に提供しない前提で自社データを学習させることはあり得る。また、適宜マスキングをすることもあり得る。
2 プロンプトエンジニアリング
AIはますます便利になっている。しかし、少なくとも2025年のAIは、「直感的」に指示しただけで、やって欲しいことを全て適切にこなしてはくれるようなものではない。AIへの指示・命令を「プロンプト」というが、プロンプトの工夫、つまり、プロンプトエンジニアリングが必要である。
例えば「法務部長の新年度全体会議でのスピーチを書いて」というプロンプトを入力しただけで生成AIは良いスピーチを出力してくれない。しかし、「全世界の法務が集まる全体会議が新年度最初にあります。この中で法務部長はスピーチを行います。①昨年の業績が良く、それは参加者の奮闘あってのことだとねぎらう、②今年は全社AI化プロジェクトが始まり、それに伴う法務対応が必要であることから、参加者の協力を依頼する、③その上でグローバルにコミュニケーションを取りながら「法務」として一体感を持って今年度も取り組んでいこうと締めるという内容を骨子としたスピーチ原稿を作成ください。」とすればもっと良くなる。また、昨年のスピーチの原稿を投入することで、もっと良いスピーチ原稿を作成してくれる。
これは、まさに部下・後輩の指導と同じことであり、単に「これやっといて」というだけでは部下・後輩は必ずしも良いパフォーマンスを発揮しないが、「こういう目的のこの仕事を、これを参照しながらこの手順でやって」と丁寧に説明すればイメージに近づいていく。
このようにAIへの指示、司令も工夫(プロンプトエンジニアリング)が必要なのである。松尾剛行『ChatGPTと法律実務』で、これまで法務担当者は部下や顧問弁護士、外国弁護士等にアウトソーシングし、適時に適切な成果を合理的予算内で実現するためのアウトソーシングマネジメントを行ってきたところ、今後やAIやリーガルテックがその管理対象に入ると述べた3。ある意味では、これまで部下や後輩に接してきたように生成AIと接することが肝要である。もちろん、一発で質の高い指示ができるとは限らない。むしろ成果物を見てそれが想定と異なったのであれば、どうして想定どおりのものとなっていないのか、原因を考え、プロンプトの内容を変更すべきである。このようないわば生成AIとの「対話」の過程を経て、トライアル・アンド・エラーにより、プロンプトの精度をあげ、回答の精度も上げていく。
3)松尾剛行『ChatGPTと法律実務』336-337頁。
3 RAG
RAGは検索拡張生成(Retrieval Augmented Generation)の略である。これは、特定の質問について、直接生成AIに回答を生成させるのではなく、データベースを検索して当該データに基づき回答を生成させる技術である。もっとも、このように定義を述べるだけでは何のことかわからない読者も多いと思われるので具体例を出そう。
例えば法務部門が「これまでの1万件の法務相談回答データがある、このデータを基に目の前の事案への回答を考えたいが、なかなか関連する過去データを精度高く検索できない」という悩みを持っているとしよう。
ここで、ChatGPTに質問をしても、(一般的なことは答えるとしても)法務的な回答としては及第点にならない。ファインチューニング(上記1参照)をして法律を覚えさせれば、確かに法律書等の一般的な記載に基づく回答はされるが、自社の法務において答えて欲しいような内容にはならない。しかし、現在の質問が、例えば過去の質問と類似するものだったらどうだろうか。過去回答を利用してかなり精度の高い、まさに自社の法務において答えて欲しいような内容の回答が生成できる可能性が高いだろう。これがRAGである。
例えば新しい質問が来たらその質問メールをRAG技術を利用した生成AIシステムに入力すると、そのメールの内容を元に法務相談回答データを自然言語検索で検索し、類似度が高いものを表示するとともに、そのような類似度の高い法務相談回答データを元にその質問に対する回答案が提示される。RAGはまさに自社の類似案件の回答内容に基づいている以上、精度は大幅に向上する。また、その回答案の根拠となる法務相談回答データが示されるので、本当にその回答案を採用すべきかを検証することが容易となる。
もちろん、検索過程を噛ませることから遅くなる等、課題はあるものの、2025年のユーザ企業実務においてはRAGが組み込まれた生成AI活用プロジェクトの相談を受けることも十分にあり得るので抑えておくべきキーワードである。RAGとデータについては、III・3を参照のこと。
4 基盤モデル
ChatGPT に利用されているGPTモデルのようなAI(学習済みモデル)は、基盤モデルと呼ばれることが多い。
基盤モデルは、大量で多様なデータを用いて訓練され、様々なタスクに適応することができるAI(学習済みモデル)のことである。
例えばリーガルテックの中にはGPTモデルを利用していることを公表しているものも少なくない。読者の皆様がリーガルテックを活用されていれば「ChatGPT」を利用しているつもりはなくても何らかの形でGPTモデルを利用している可能性が十分にある。このような様々な領域において基盤モデルが統合され、様々なタスクを遂行している。
上記1~3とあわせて各概念の関係を整理する際は、「司法試験受験」のイメージを持つとあわかりやすいだろう。
そもそも、基盤モデルが中学生並だとなかなか司法試験受験勉強はおぼつかないが、基盤モデルが優秀な大学生・大学院生並であれば期待できそうである。ただ、そうであっても基盤モデルは法律、こと日本の法律に特化したものではない。
だからこそ、例えば判例データや法律書・法律論文データ等を追加学習させることで、法律に強いAIにすることができる。
とはいえ、一般的に法律に強いというだけで、目の前で問われる問題をしっかり解くことができるとは限らない。筆者が2025年2月に令和6年の司法試験予備試験民法の問題を特にプロンプトエンジニアリング(2参照。ここでは、生成AIが検討する上での補助線を引いてあげる等が考えられる)をせずそのままChatGPT-o3に入力して解かせたところ、学生によくある誤答をしていた4。だからこそ、「この問題はこの参考書のこの頁を参照して解くように」という参考資料を提示することで、正解に導くことができる、これがRAGである。
このように、優秀な基盤モデルに、関連するドメイン知識(ここでは法律という領域の知識)を追加学習で学ばせ、RAGを利用して適切な参考資料を参照させ、プロンプトエンジニアリングで適切なプロンプトを工夫することで良い答案を生成させることができるようになる。
4)決して合格点ではないものの、論文式試験受験者の平均程度ではないか。
5 Transformer
なお、既にご存じの方も少なくないと思われるが、TransformerはGPTモデルという基盤モデル(上記4)の中核技術である。
Transformerは、要するに、〈その文章につながる可能性が高い単語を予測すること〉を中核とする技術である。すなわち、過去の訓練データで得た記憶を想起しながら(いわゆる「MLPブロック」)、直前までの処理結果に注意を集めて(いわゆる「自己注意機構」)深く分析し、適切な単語を予測していく。いわば短期記憶的なものと長期記憶的なものを活用して、次の単語を精度高く予想する中、文章を生成していく。
なお、Transformerが覇権を維持するのか、それともMamba等の他のアーキテクチャの方が期待できるのか等、生成AIの技術動向は引き続き目が離せないところである。
Ⅲ 応用キーワード
1 DeepSeek
AIの世界で2025年1月に最も話題となったのはDeepSeekといっても異論はないだろう。米国の生成AIが全盛の時代において、米国の外で世界で利用される生成AIサービスをどの国の企業が開発するかが注目されていた。特にトランプ政権において前政権のAI政策が撤廃される等、米国のAIを巡る政治環境が不透明である等、地政学的観点からは、米国以外の選択肢が期待されていた。
DeepSeekの衝撃的な点は、ある意味では当該米国以外の選択肢が中国だった、ということがわかったと評することができるだろう5。特に、これまで高性能の生成AIを開発するには高価で希少なGPUと呼ばれるものが大量に必要だということが常識であったが、非常に安いコストで高性能の生成AIを開発したことが話題になった。
もちろん、それがChatGPTの利用規約に違反して「蒸留」という方法を利用して開発したのではないか等、様々な議論があるもののいずれにせよ、DeepSeekを含む中国の生成AIがいわば2025年の「台風の目」となることは間違いない。なお、筆者は日本企業がDeepSeekを超える驚きを世界に与える生成AIを開発することを期待している。
5)これは日本の立場において、少なくとも地政学的観点からは、不幸なことかもしれない。
2 (生成)AIエージェント
AIエージェントは人間が行うような一連のプロセスを代行させることができる高度で適応性の高いAI のことである。
AIエージェントに特定の目的を与えると、その目的実現のため様々な生成AIやソフトウェアを組み合わせ、必要に応じてユーザの確認・承認を求めながら当該目的を実現する。
例えば、Devinというソフトウェア作成AIエージェントであれば、「こういうソフトウェアを作るように」と指示すると、適宜「セキュリティの観点から完成したソフトウェアがインターネット上で公開されて他の人が実行できるが、それで良ければ良い旨明示的な承認が欲しい」等と確認・承認を求めながら、生成AI以外も活用しつつソフトウェアを完成させる。
特にソフトウェアの開発については、それが正解かは、コードが動くのか、それともエラーを出すかどうかである程度判別することができる(そしてエラーが出ればまた別途そのエラーの表示から原因を探り修正することができる)ため、このようなAIエージェントの利用が期待されている6。
もちろん、現状では、AIエージェントの提案するツールの組み合わせや手順等はその分野における優秀な人間が考えたものよりも質が低いとか、(単にエラーなく実行できるというだけで、)様々な観点からのチェック等がされている訳ではない等の課題があり、有能なプログラマが生成AIを「支援」として利用した方が良いソフトウェアを作成可能である。しかし、小規模で、かつ、想定されるAIのミスの影響があまり大きくないものであれば「AIが自律的にソフトウェアを作ってくれる」ことのメリットは大きい。今後はOperatorやDeepResearch等、ソフトウェア開発以外にもAIエージェントの利用は広がっていくだろう。
6)契約書でいうと、その契約書で意図通り勝訴判決が得られるかを契約書のドラフト直後に確認することができるというイメージで ある。
3 ローカルLLM
生成AIサービスの大部分はクラウドサービス7の形で提供されている。そこで、この意味は、ベンダのサーバにユーザのデータが移転すると言うことである。例えばMicrosoftAzureOpenAIであれば(ユーザ企業のサーバではなく)「マイクロソフトのサーバ」にユーザが入力したデータが移転する。例えは、プロンプトに社内の各部門の売上・費用データを入れて分析することで、ビジネス上有用な分析をすることができるが、当該売上・費用データはベンダのサーバに移転する。これはRAGでも同様であり、上記II3の法律相談回答システムの事例であれば、関連する過去の法律相談回答がベンダのサーバに移転する。そして、このこと自体は、クラウドではよくあることであり、それだけをもって極めて危険なことと考えるべきではない。むしろ、その契約や利用規約上、その投入するデータが学習(II・1参照)されるか等を確認することが重要である。もし一切学習されないということであれば、Microsoftのオフィス製品をクラウド上で利用している場合とリスクは大きくは変わらない、と判断されることは十分にあり得るだろう。また、当然のことながら、個人情報等、投入する情報の性質に応じて、どのスキームでそのようなデータの投入を適法化するかを考えることは必要となる8。
そして、最近の動きとしてローカルLLM、つまり、自社のサーバにおいて生成AI9を動かすことがますます現実的になっている。例えば、DeepSeekは、クラウドで利用する場合は中国のサーバにデータが保存され、中国法が適用される。しかし、DeepSeekのソフトウェアそのものはオープンソースで誰でも自由にダウンロードして自社のサーバにインストールして利用可能である。もちろん、DeepSeekについて利用したくないという企業があるのは理解できるが、DeepSeek以外にもLlama等のオープンソースの生成AIは存在する。とりわけ、極めて重要な情報を取り扱っていて、これまでも情報セキュリティの懸念から、AWS/Azure/GoogleCloud等のパブリッククラウドを利用せず、社内(グループ内)でデータを閉じる対応をしてきた企業やある企業内の特定の部門にとっては、このような自社のサーバ上で生成AIを動かすことも、安全に生成AIを利用するための一つの対応案であり、その場合には理論上データが自社内で閉じる状態を実現することが可能である10。
7)連載4回 (https://www.ibltokyo.jp/series/a001/5094)及び松尾剛行『クラウド情報管理の法律実務』(弘文堂、第2版、2023年)参照。
8)なお、あまりクラウド例外の利用が容易でないことは既に論文を公表している
<https://hermes-ir.lib.hit-u.ac.jp/hermes/ir/re/84150/kenkyu0490200190.pdf>。
むしろ個人情報保護委員会が、クラウドサービス上で「ユーザ企業の標準の委託覚書雛形を利用しなくても」委託スキームで対応できる可能性を示唆していることを踏まえて対応する方が望ましいかもしれない
<https://www.ppc.go.jp/files/pdf/240325_alert_cloud_service_provider.pdf>。
9)LLMというのはLarge Language Model[大規模言語モデル]というChatGPT等の言語生成AIのモデルのことをいう。
10)もちろん、「ローカルLLMだ」と謳っておいて、バックドアといわれる問題のあるコードを仕込んで、悪意あるハッカー等がデータを取り出せるようにする方法もあるので、信頼できるものか等は十分に確認する必要がある。
4 AI法制
AI法制に関する動きとしては、禁止類型等に関するEUAI法の一部規定が2025年2月から適用を開始している。
日本では、筆者も有識者として報告させて頂いたAI制度研究会において「中間とりまとめ」が策定され11、人工知能関連技術の研究開発および活用の推進に関する法律が2025年の通常国会で成立する予定である。
また、筆者が代表理事を務めるAIリーガルテック協会では2025年1月10日にリーガルテックとAIに関する原則を公表している12。
このようなハードロー及びソフトローの動きには引き続き注目すべきである。
11)https://www8.cao.go.jp/cstp/ai/interim_report.pdf
12)https://ai-legaltech.org/legaltech-ai-principle
5 女子プロレスラー事件
女子プロレスラー事件といっても分からない方が多いだろう。これは、大阪地判令和6年8月30日13という比較的最近の判決の事案である。簡単に言えば、リアリティ番組に出演し、誹謗中傷を原因として2020年に自殺した女子プロレスラーの遺族が、誹謗中傷投稿をするアカウントに対する開示請求や損害賠償請求を行う過程で、第三者が遺族側に「一見ツイッター(X)の投稿のスクリーンショットのように見える偽画像」を提供し、このアカウントの保有者が女子プロレスラーを誹謗中傷したように遺族を誤信させた。その結果として、遺族はアカウントの保有者を訴えたところ、アカウントの保有者はむしろ遺族やその代理人弁護士が「冤罪」で訴えを提起したことが不法行為だとして、偽画像を見抜けなかった責任を問う訴訟を提起した。
裁判所は、これを最高裁判例(最判昭和63年1月26日14)に従い、通常人であれば保有者が故女子プロレスラーを誹謗中傷した事実がないことを容易に知り得たか否かを基準とするとした。そして、当時はこのような偽画像の作成が広く知られていなかったこと等を理由に結論として、遺族側の責任はないとしている。
しかし、まさにディープフェイク時代においては、このような偽画像が作成されることが極めて容易となっている。そこで、全ての法律関係者は、紛争解決(訴訟外の交渉を含む)の場にこのような偽の証拠(画像に限らず、音声、動画等を含む)が持ち込まれる可能性が十分にある事を前提にして頂きたい。
13)裁判所HP 2024WLJPCA08309001
14)民集42巻1号1頁
Ⅳ おわりに
その他、本連載では紹介できなかったが、作風・画風、享受目的、依拠性、マスピ絵、(業務委託契約等における)AI利用条項等についても『生成AIの法律実務』では紹介している。是非ご期待頂きたい!

<筆者プロフィール>
松尾剛行(まつお・たかゆき)
桃尾・松尾・難波法律事務所パートナー弁護士(第一東京弁護士会)・ニューヨーク州弁護士、法学博士、学習院大学特別客員教授、慶應義塾大学特任准教授、AIリーガルテック協会(旧AI・契約レビューテクノロジー協会)代表理事。