Revision oder Neulösung? Zerlegung von Zweitdurchgangsgewinnen in Multi-LLM-Pipelines

Zusammenfassung

Multi-LLM-Revisionspipeline, bei denen ein zweites Modell einen von einem ersten Modell erstellten Entwurf überprüft und verbessert, werden allgemein als Gewinne durch echte Fehlerkorrektur angesehen. Wir stellen diese Annahme mit einem kontrollierten Dekompositionsexperiment in Frage, das vier abgestimmte Bedingungen verwendet, um die Gewinne des zweiten Durchlaufs in drei additive Komponenten zu trennen: Neuberechnung, Gerüstbildung und Inhalt. Wir evaluieren dieses Design anhand von zwei Modellpaaren auf drei Benchmarks, die wissensintensive Multiple-Choice-Aufgaben und kompetitive Programmierung abdecken. Unsere Ergebnisse zeigen, dass die Vorteile der Multi-LLM-Revision nicht monolithisch sind, sondern von der Aufgabenstruktur, der Entwurfsqualität und der Art der Entwurfsinformationen abhängen. Bei Multiple-Choice-Aufgaben, bei denen der Antwortraum eingeschränkt ist und Entwürfe wenig strukturelle Orientierung bieten, lassen sich die meisten Gewinne mit einer Neuberechnung durch das stärkere Modell erklären, und die direkte Weiterleitung von Anfragen an das stärkere Modell kann effektiver sein als die Revision eines schwachen Entwurfs. Bei Codegenerierungsaufgaben hingegen bleibt das zweistufige Prompting nützlich, da selbst semantisch leere Entwürfe erhebliche strukturelle Gerüstbildung bieten können, während schwache Entwurfsinhalte schädlich sein können. Schließlich zeigen rollenumgekehrte Experimente, dass starke Entwürfe schwachen Prüfmodellen eindeutig zugutekommen. Letztlich demonstrieren unsere Ergebnisse, dass der Nutzen der Multi-LLM-Revision dynamisch durch die Aufgabenstruktur und die Entwurfsqualität begrenzt wird, was gezieltere Pipeline-Designs anstelle pauschaler Revisionsstrategien erfordert.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Revision oder Neulösung? Zerlegung von Zweitdurchgangsgewinnen in Multi-LLM-Pipelines

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Zusammenfassung

Support