Wanneer helpt het combineren van taalmodellen? Een co-falingsplafond voor routering, stemming en mengsel van agenten over 67 frontiermodellen

Samenvatting

Multi-model LLM-systemen zoals routing, voting, cascades, fusion en mixture-of-agents worden gebruikt om de nauwkeurigheid van één model te overtreffen. Wij tonen aan dat hun winst wordt begrensd door een grootheid die het vakgebied zelden rapporteert. Voor elk beleid waarvan de uitkomst het antwoord van één lidmodel is, kan de nauwkeurigheid niet groter zijn dan één min bèta, waarbij bèta de fractie is waarbij elk model fout is op dezelfde vraag. Daarentegen kan de gebruikelijke diagnostiek, de gemiddelde paarsgewijze foutcorrelatie rho, bèta niet identificeren: foutwetten met identieke marginalen en paarsgewijze correlaties kunnen verschillende 'allemaal-fout'-percentages hebben. Een Clopper-Pearson-grens op bèta geeft een eindige-steekproefcertificaat voor de grootste winst die een router, stem of cascade kan leveren voordat een router wordt getraind. Over 67 modellen van 21 aanbieders blijft een tetrachoor-gekalibreerd éénfactor-model de 'allemaal-fout'-staart onderwaarderen: bij open wiskunde is de waargenomen bèta 0,052 versus 0,023 onder de volledige 67-model Gauss-copula, ongeveer 2,5 keer onderwaardering, met een 90%-betrouwbaarheidsinterval van 1,7 tot 3,4 en k gelijk aan 17. Het effect herhaalt zich bij uitvoeringsgegradeerde code, waar bèta 0,079 is. Het opnieuw stellen van dezelfde GPQA-Diamond-vragen in vrije-antwoordvorm in plaats van meerkeuzevorm opent de staart opnieuw, met bèta 0,127 en een panel van vijf beoordelaars met kappa 0,73 tot 0,92, waarbij het gezamenlijk falen wordt gelokaliseerd in antwoordformaat in plaats van onderwerp. Bij gelijke kwaliteit verslaan heterogene ensembles met lage rho Self-MoA met hoge rho, maar bij controleerbare taken in onze pool verslaat het combineren van modellen zelden het enkele beste model zonder een sterk query-niveau routersignaal. Winst komt van modellen die falen op verschillende vragen, niet van het toevoegen van meer modellen.

English

Multi-model LLM systems such as routing, voting, cascades, fusion, and mixture-of-agents are used to beat single-model accuracy. We show that their gain is capped by a quantity the field rarely reports. For any policy whose output is one member model answer, accuracy cannot exceed one minus beta, where beta is the rate at which every model is wrong on the same query. In contrast, the usual diagnostic, average pairwise error correlation rho, cannot identify beta: error laws with identical marginals and pairwise correlations can have different all-wrong rates. A Clopper-Pearson bound on beta gives a finite-sample certificate on the largest gain any router, vote, or cascade could deliver before training a router. Across 67 models from 21 providers, a tetrachoric-calibrated single-factor model still underprices the all-wrong tail: on open-ended mathematics, observed beta is 0.052 versus 0.023 under the full 67-model Gaussian copula, about 2.5 times underpricing, with 90 percent CI 1.7 to 3.4 and k equals 17. The effect recurs on execution-graded code, where beta is 0.079. Re-asking the same GPQA-Diamond questions in free-response rather than multiple-choice form reopens the tail, with beta 0.127 and a five-judge panel with kappa 0.73 to 0.92, locating co-failure in answer format rather than subject. At matched quality, low-rho heterogeneous ensembles beat high-rho Self-MoA, but on checkable tasks in our pool, combining models rarely beats the single best model without a strong query-level routing signal. Gains come from models failing on different questions, not from adding more models.