影響範囲調査をもっと楽にしたい!AIモデル比較に挑戦【後編】
はじめに
こんにちは、エンジニアの村林と鈴木です。
前編では、影響範囲調査が「重要である一方、とても難しく、属人化しやすい作業であること」、そしてその負荷を少しでも軽減するためにAI活用を検討し始めた背景をお伝えしました。
本記事(後編)では、Cursorを使って複数の生成AIモデルに同一条件で質問を投げ、影響範囲調査での有用性や出力の違いを比較した結果を紹介します。
あわせて、実案件に適用した際に見えた限界や、現時点での現実的な活用方法についても整理します。
今回の検証で行ったこと
検証の流れはシンプルです。
- 実務で発生した影響範囲調査を題材に選定
実際の改修・変更に対して、影響が及ぶ可能性のある箇所を洗い出すタスクを用いました。 - 人間が先に調査を実施し、比較基準を作成
私たちが通常の手順で影響範囲調査を行い、根拠を含めて整理しました。
これを比較の正解(ベースライン)としています。 - 同一の情報・同一のプロンプトで4モデルを比較
Cursor上でモデルだけを切り替え、まったく同じプロンプトを投入しました。
影響範囲の洗い出しに加え、可能な範囲で構造図(Mermaid形式)の出力も依頼しました。 - 人間の結果とAI出力を比較し、精度と実務適合性を評価
一致度そのものに加え、以下を総合的に見ています。- 観点の網羅性
- 根拠の妥当さ
- 出力の読みやすさ
- 実務にそのまま流用できる度合い
比較対象とした4モデル
比較したモデルは以下の4つです。
- Gemini 2.5 Flash
- Claude 3.5 Sonnet
- GPT-4.1
- o4-mini
いずれも高性能なモデルですが、影響範囲調査のような「実務の文脈理解+依存関係の推論」が問われる作業でどのような差が出るかを確かめたい、というのが今回の目的です。
同一プロンプトで見えたモデルごとの特徴
同じ質問を投げても、モデルごとの性格はかなり異なりました。ここでは、それぞれの傾向をまとめます。
Gemini 2.5 Flash
- 応答が非常に速く、調査の初動で使いやすい
- 影響範囲の洗い出しは4モデル中もっとも人間の調査に近い傾向
- 抜け漏れが比較的少なく、たたき台の生成に適する
- Mermaidの構造図は文法エラーが出やすく、そのまま描画できないことが多い
→ 「精度と速度でたたき台を作る役」には強いが、図の出力は要手直し
GPT-4.1
- 出力が丁寧で、根拠らしき説明も付けてくれる
- 人間の調査と一致する箇所は多く、全体としては堅実
- 一方で「論理は通っているが前提の捉え方がズレる」ケースが混じる
- Mermaidの構造図は崩れることがあり、安定性は高くない
→ 「長めの文脈を踏まえた推論」は得意だが、もっともらしい誤りに注意
Claude 3.5 Sonnet
- 文章が自然で読みやすく、指示の解釈や整理が上手い
- タスク分解や構成が整っており、アウトプットとしては美しい
- Mermaidの構造図は比較的安定
- ただし影響範囲の精度は伸びきらず、重要箇所の当て方が弱い傾向
→ 「読みやすい整理・図の生成」は強いが、精度優先の調査では補助向き
o4-mini
- 軽量モデルらしく応答が速く、方針レベルの整理は得意
- Mermaidの出力は比較的安定
- 影響範囲の深い依存関係まで拾い切れず、重要観点の見落としが出やすい
→ 「軽い壁打ちや補助タスク向き」で、調査の主役としては物足りない
人間の調査結果との一致度(精度比較)
今回の題材における一致度(人間調査との比較)は、次のようになりました。
- Gemini 2.5 Flash:約75%
- GPT-4.1:約60%
- Claude 3.5 Sonnet:約45%
- o4-mini:約40%
総合すると、
「Gemini 2.5 Flashが最も当たりやすく、GPT-4.1が次点。Claude 3.5 Sonnetとo4-miniは整理面では優れるが精度が伸び切らない」
という結果です。
実案件に試験適用して見えたこと
続いて、これら4つのモデルを実案件に近い形で適用した場合の結果です。
検証を進める中で、私たちは最終的に「現時点で、そのまま実務採用するのは見送る」という方針に至りました。
理由は以下の5点です。
- タスクによって正確性が大きく変動する
ケースによっては、正確性が急に40%程度まで落ちることがあり、安定運用の観点で懸念が残りました。 - ハルシネーションのリスク
誤った影響範囲を確信をもって提示することがありました。
影響範囲調査では、こうした誤りが重大な事故につながり得るため、無視できないポイントでした。 - プロンプト改善で品質が頭打ちになる
質問の書き方や情報の渡し方を調整しても、一定以上の品質向上が見込めないケースが確認されました。 - 大規模プロジェクトの依存関係をAIだけで追い切れない
システム規模が大きくなると、設計上・運用上の依存関係が複雑化します。
その全体像をAI単独で正確に把握するのは、現状では難しいと判断しました。 - 複数ファイルを渡すと精度が下がる傾向
影響範囲調査では、複数のソースや資料を横断する必要がありますが、
入力が増えるほど推論の精度が低下する傾向が見られました。
以上を踏まえ、実務では“補助的に利用する”位置づけに留めるべきという結論になりました。
現場でのおすすめ運用
現時点でのおすすめは、次の運用です。
-
AIで広めのたたき台を作り、人間が精査する
特にgeminiのような精度の高いモデルで一度網羅的に洗い出し、そこから人が詰めていく方法は、最も効果的に工数を削減できました。 -
図が必要な場合はモデルを使い分ける
図整理が必要な場面では、claudeやo4-miniを補助的に利用することで、アウトプット品質を整えやすくなりました。 -
最終判断と責任は必ず人間が持つ
AIの出力は第一案として扱い、意思決定と確定作業は人が担うことが、現実的かつ安全な運用だと考えます。
おわりに
今回の比較と実案件での検証を通じて得られた学びは、
- AIは影響範囲調査を確実に支援できる
- ただし現段階では、安定した実務自動化には至らない
- そのため「補助としての最適運用」を設計するのが現実解
という点でした。
影響範囲調査の負荷を減らすための取り組みは、これからも続けていきます。
AI活用の可能性を探りつつ、チームとして改善できる課題にも向き合いながら、より安全で効率的な調査プロセスを目指していきたいと思います。
最後までお読みいただき、ありがとうございました。
Webサイト・システムの
お悩みがある方は
お気軽にご相談ください
出張またはWeb会議にて、貴社Webサイトの改善すべき点や
ご相談事項に無料で回答いたします。
