ChatPaper.aiChatPaper

修正か再解決か?マルチLLMパイプラインにおける第二パス利益の分解

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

April 1, 2026
著者: Jingjie Ning, Xueqi Li, Chengyu Yu
cs.AI

要旨

マルチLLM修正パイプライン(第2のモデルが第1のモデルによって生成された草稿をレビュー・改善する手法)の利得は、一般に真の誤り修正に由来すると考えられている。本研究はこの前提を問い直し、修正プロセスを3つの付加的要素(再解決、足場効果、内容効果)に分解する統制実験を設計する。2組のモデルペアと、知識集約型多肢選択問題および競技プログラミングを含む3種類のベンチマークで評価を実施した。結果は、マルチLLM修正の利得が単一のメカニズムではなく、課題構造・草稿の品質・草稿が提供する情報の種類に依存することを示す。多肢選択課題では、解答空間が限定され草稿が構造的指針をほとんど提供しないため、利得の大部分は強力なモデルによる再解決で説明可能であり、弱い草稿を修正するよりも強力なモデルに直接問い合わせる方が効率的な場合がある。一方、コード生成課題では、意味的に無内容な草稿であっても構造的足場として機能しうるため、2段階プロンプト戦略が有効であり続ける。ただし、質の低い草稿の内容は有害となりうる。さらに、モデルの役割を逆転させた実験では、高品質な草稿が弱いレビュアーに明確な利益をもたらすことが確認された。最終的に、マルチLLM修正の有用性は課題構造と草稿品質によって動的に制約され、画一的な修正戦略ではなく、より標的を絞ったパイプライン設計が必要であることが示唆される。
English
Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.
PDF21April 3, 2026