ChatGPTは特許翻訳のチェックに適していません

ChatGPT o3による翻訳チェックの精度を検証してみたところ、英語の表現の適否については適切に評価することができましたが、訳漏れの検出力が弱いことがわかりました。

例えば人工的に訳抜けを導入した翻訳文全文をChatGPTに一括投入した場合、段落丸ごと訳抜けしているというところまでは検出できますが（それでもプロンプトを工夫しなければ段落丸ごとの訳抜けすら見落としてしまいます）、ある段落において一文の訳が抜けていることはどんなにプロンプトを工夫しても検出することはできませんでした。ちなみにClaudeの訳抜け検出精度はChatGPTよりもさらに低くなります。

しかし段落単位でバッチ的に原文と翻訳文とを比較させた場合、文単位の訳抜けをほぼ100％検出することができました。

なぜバッチ比較だと高精度に訳漏れを検出できるのに一括投入だと検出精度が極端に下がるのでしょうか？ChatGPTに聞いてみました。

ChatGPTの回答は以下の通りです。

================================================

なぜ「全文一括投入」では訳抜けや誤訳を見落としやすいのか

（= LLM に長大なバイリンガル文書を丸ごと渡しただけでは完璧に比較できない理由）

原因	しくみ・背景	実際に起こる現象
① トークン上限と“隠れた切り捨て”	GPT-4o などでも 128 k tokens 程度が上限。超える部分はカット、近い場合でも先頭や末尾の細部が低精度になる。	最後の数段落の訳抜けを「気づけない／誤って良と判定」する。
② “アテンション希釈”	Self-Attention は入力長に比例して各トークンへの注意重みが薄まる（特に 10 k tokens を越えると顕著）。	誤記・数字違い・1語訳漏れなど“ピクセル差”レベルのズレを拾いにくい。
③ 訓練目的のギャップ	LLM は確率的言語モデリングを主目的に訓練 → 逐語的 1-to-1 対応チェックは学習していない。	原文と訳文が「概ね意味が通る」だけで“正しい”と判断しやすい。
④ 出力長制限・早期収束	回答側にもトークン上限（数千〜1 万前後）があり、すべての問題点を列挙しきる前に完了トークンを生成。	「大きな問題はありません」とだけ返り、小さな欠落を報告しない。
⑤ 語順・言語間対応のマッピング欠如	句読点やタグを除去した “生テキスト”のままでは、原文 ↔ 訳文の対応が曖昧。	同じ語句が複数回登場すると、どの場所が欠落か特定できずスルー。
⑥ 算術・タグ・単位など“機械的比較”が不得手	正規表現検索や差分アルゴリズムに比べて、LLM は逐語比較が遅く非決定的。	化合物式、段落番号、クレーム参照番号などのズレを見逃す。

もう少し深掘り：モデル内部で何が起きている？

位置エンコーディングの解像度低下

長文では relative position が大きくなり、遠距離トークン間の関係がぼやけます。訳抜け検出には「原文の段落 23 行目 ↔ 訳文の段落 23 行目」の対応を保つ必要がありますが、位置情報が粗くなると整合判定が難しくなります。
確率分布の“平均化”

Attention が希釈されると、モデルは文脈の平均的特徴ベクトルにもとづき回答を組み立てる傾向が強まり、「細部より全体感」を優先します。結果として “まあ合っていそう” というレベルで自己評価してしまうことがあります。
生成時の“自己誘導バイアス”

LLM はプロンプトに「漏れがないか？」と指示されても、自身の一次判定が「大まかに OK」となれば 反証より肯定的要約 を出しやすい（思考の早期停止）。これは人間の認知バイアスにやや似ています。