Revisie of Heroplossing? Decompositie van Tweede-Pass Winst in Multi-LLM Pijplijnen

Samenvatting

Multi-LLM-revisiepijplijnen, waarbij een tweede model een door een eerste model geproduceerd concept beoordeelt en verbetert, worden algemeen verondersteld hun winst te halen uit daadwerkelijke foutcorrectie. Wij betwijfelen deze aanname met een gecontroleerd decompositie-experiment dat vier gematchte condities gebruikt om de winst van de tweede ronde op te splitsen in drie additieve componenten: opnieuw oplossen, scaffold en inhoud. We evalueren dit ontwerp over twee modelparen op drie benchmarks die kennisintensieve MCQ en competitief programmeren omvatten. Onze resultaten tonen aan dat de winst van multi-LLM-revisie niet monolithisch is, maar afhangt van taakstructuur, conceptkwaliteit en het type conceptinformatie. Bij MCQ-taken, waar de antwoordruimte beperkt is en concepten weinig structurele richtlijn bieden, is het merendeel van de winst consistent met het opnieuw oplossen door het sterkere model, en kan het direct doorsturen van vragen naar het sterkere model effectiever zijn dan het reviseren van een zwak concept. Bij codegeneratietaken blijft tweefasen-prompting echter nuttig omdat zelfs semantisch nul-concepten aanzienlijke structurele scaffolding kunnen bieden, terwijl zwakke conceptinhoud schadelijk kan zijn. Ten slotte tonen rolomgekeerde experimenten aan dat sterke concepten zwakke reviewers duidelijk ten goede komen. Uiteindelijk demonstreren onze bevindingen dat de bruikbaarheid van multi-LLM-revisie dynamisch wordt gebottleneckd door taakstructuur en conceptkwaliteit, wat gerichtere pijplijnontwerpen vereist in plaats van algemene revisiestrategieën.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Revisie of Heroplossing? Decompositie van Tweede-Pass Winst in Multi-LLM Pijplijnen

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Samenvatting

Support