Révision ou Résolution ? Décomposition des Gains de la Deuxième Passe dans les Pipelines Multi-LLM

Résumé

Les pipelines de révision multi-LLM, dans lesquels un second modèle révise et améliore un brouillon produit par un premier, sont généralement considérés comme tirant leurs gains d'une correction authentique des erreurs. Nous remettons en question cette hypothèse avec une expérience de décomposition contrôlée qui utilise quatre conditions appariées pour séparer les gains de la seconde passe en trois composantes additives : la re-résolution, l'échafaudage et le contenu. Nous évaluons cette conception sur deux paires de modèles et trois benchmarks couvrant des QCM à forte intensité de connaissances et de la programmation compétitive. Nos résultats montrent que les gains de la révision multi-LLM ne sont pas monolithiques, mais dépendent de la structure de la tâche, de la qualité du brouillon et du type d'information qu'il contient. Sur les tâches de QCM, où l'espace des réponses est contraint et les brouillons fournissent peu d'orientation structurelle, la plupart des gains sont compatibles avec une re-résolution par le modèle le plus fort, et le routage direct des requêtes vers ce modèle peut être plus efficace que la révision d'un brouillon faible. En revanche, sur les tâches de génération de code, l'incitation en deux étapes reste utile car même des brouillons sémantiquement nuls peuvent fournir un échafaudage structurel substantiel, tandis qu'un contenu de brouillon faible peut s'avérer néfaste. Enfin, des expériences à rôles inversés montrent que des brouillons de qualité profitent clairement aux réviseurs plus faibles. En définitive, nos résultats démontrent que l'utilité de la révision multi-LLM est dynamiquement limitée par la structure de la tâche et la qualité du brouillon, nécessitant des conceptions de pipeline plus ciblées plutôt que des stratégies de révision universelles.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Révision ou Résolution ? Décomposition des Gains de la Deuxième Passe dans les Pipelines Multi-LLM

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Résumé

Support