Revisione o Nuova Risoluzione? Scomposizione dei Guadagni del Secondo Passaggio nelle Pipeline Multi-LLM

Abstract

Le pipeline di revisione multi-LLM, in cui un secondo modello rivede e migliora una bozza prodotta da un primo modello, sono ampiamente ritenute ottenere i propri vantaggi dalla genuina correzione di errori. Noi mettiamo in discussione questo assunto con un esperimento di scomposizione controllata che utilizza quattro condizioni abbinate per separare i guadagni della seconda passata in tre componenti additive: ri-risoluzione, impalcatura e contenuto. Valutiamo questo progetto su due coppie di modelli e tre benchmark che spaziano da MCQ ad alta intensità di conoscenza a programmazione competitiva. I nostri risultati mostrano che i guadagni della revisione multi-LLM non sono monolitici, ma dipendono dalla struttura del task, dalla qualità della bozza e dal tipo di informazione in essa contenuta. Nei task MCQ, dove lo spazio delle risposte è vincolato e le bozze forniscono poca guida strutturale, la maggior parte dei guadagni è coerente con una ri-risoluzione da parte del modello più forte, e l'instradamento diretto delle query al modello più forte può essere più efficace che revisionare una bozza debole. Nei task di generazione di codice, tuttavia, il prompting a due stadi rimane utile perché anche bozze semanticamente nulle possono fornire un'impalcatura strutturale sostanziale, mentre il contenuto di una bozza debole può essere dannoso. Infine, esperimenti con ruoli invertiti mostrano che bozze forti chiaramente avvantaggiano i revisori deboli. In definitiva, le nostre scoperte dimostrano che l'utilità della revisione multi-LLM è dinamicamente limitata dalla struttura del task e dalla qualità della bozza, rendendo necessari progetti di pipeline più mirati piuttosto che strategie di revisione generiche.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Revisione o Nuova Risoluzione? Scomposizione dei Guadagni del Secondo Passaggio nelle Pipeline Multi-LLM

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Abstract

Support