ChatPaper.aiChatPaper

言語モデルの組み合わせはいつ有効なのか?——67のフロンティアモデルにおけるルーティング、投票、エージェント混合の共失敗上限

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

June 25, 2026
著者: Josef Chen
cs.AI

要旨

ルーティング、投票、カスケード、フュージョン、ミクスチャー・オブ・エージェントなどのマルチモデルLLMシステムは、単一モデルの精度を上回るために用いられる。本稿では、その利得がこの分野ではほとんど報告されない量によって制限されていることを示す。出力が単一の構成モデルによる回答である任意の方針について、精度は1からβを引いた値を超えることはできない。ここでβは、すべてのモデルが同一クエリに対して誤答する割合である。対照的に、通常の診断指標である平均ペアワイズ誤差相関ρはβを特定できない。同一の周辺分布とペアワイズ相関を持つ誤差法則でも、全誤答率は異なり得るからである。βに対するClopper-Pearson境界は、ルーターを訓練する前に、任意のルーター、投票、またはカスケードが達成し得る最大利得に関する有限標本の保証を与える。 21のプロバイダーからの67モデルにおいて、四分相関で校正された単因子モデルでも、全誤答の裾野を過小評価している。自由記述形式の数学問題では、観測されたβは0.052であるのに対し、完全な67モデルガウス・コピュラのもとでのβは0.023であり、約2.5倍の過小評価となっている。90%信頼区間は1.7~3.4、k = 17である。この効果は実行評価型コード問題でも再現され、βは0.079である。同じGPQA-Diamondの質問を多肢選択形式ではなく自由回答形式で再度尋ねると、裾野が再び広がり、βは0.127となり、κが0.73~0.92の5人の判定者パネルでは、共失敗がテーマではなく回答形式に起因することが特定された。品質が同等の場合、低ρの異種アンサンブルは高ρのSelf-MoAを上回るが、本評価プール内の検証可能なタスクでは、強力なクエリレベルのルーティング信号なしに、モデルを組み合わせても単一の最良モデルを上回ることはほとんどない。利得は、より多くのモデルを追加することではなく、異なる質問で失敗するモデルから生じる。
English
Multi-model LLM systems such as routing, voting, cascades, fusion, and mixture-of-agents are used to beat single-model accuracy. We show that their gain is capped by a quantity the field rarely reports. For any policy whose output is one member model answer, accuracy cannot exceed one minus beta, where beta is the rate at which every model is wrong on the same query. In contrast, the usual diagnostic, average pairwise error correlation rho, cannot identify beta: error laws with identical marginals and pairwise correlations can have different all-wrong rates. A Clopper-Pearson bound on beta gives a finite-sample certificate on the largest gain any router, vote, or cascade could deliver before training a router. Across 67 models from 21 providers, a tetrachoric-calibrated single-factor model still underprices the all-wrong tail: on open-ended mathematics, observed beta is 0.052 versus 0.023 under the full 67-model Gaussian copula, about 2.5 times underpricing, with 90 percent CI 1.7 to 3.4 and k equals 17. The effect recurs on execution-graded code, where beta is 0.079. Re-asking the same GPQA-Diamond questions in free-response rather than multiple-choice form reopens the tail, with beta 0.127 and a five-judge panel with kappa 0.73 to 0.92, locating co-failure in answer format rather than subject. At matched quality, low-rho heterogeneous ensembles beat high-rho Self-MoA, but on checkable tasks in our pool, combining models rarely beats the single best model without a strong query-level routing signal. Gains come from models failing on different questions, not from adding more models.