¿Revisión o Resolución? Descomponiendo las Ganancias de la Segunda Pasada en Tuberías Multi-LLM

Resumen

Los sistemas de revisión multi-LLM, en los que un segundo modelo revisa y mejora un borrador producido por un primero, se asumen ampliamente que obtienen sus mejoras mediante una genuina corrección de errores. Cuestionamos esta suposición con un experimento de descomposición controlada que utiliza cuatro condiciones emparejadas para separar las ganancias de la segunda pasada en tres componentes aditivos: re-resolución, andamiaje y contenido. Evaluamos este diseño en dos pares de modelos y tres puntos de referencia que abarcan preguntas de opción múltiple (MCQ) de alto contenido factual y programación competitiva. Nuestros resultados muestran que las ganancias de la revisión multi-LLM no son monolíticas, sino que dependen de la estructura de la tarea, la calidad del borrador y el tipo de información del borrador. En las tareas MCQ, donde el espacio de respuestas está restringido y los borradores aportan poca guía estructural, la mayoría de las ganancias son consistentes con la re-resolución por el modelo más potente, y enrutar las consultas directamente al modelo más fuerte puede ser más efectivo que revisar un borrador débil. Sin embargo, en las tareas de generación de código, el prompting en dos etapas sigue siendo útil porque incluso los borradores semánticamente nulos pueden proporcionar un andamiaje estructural sustancial, mientras que el contenido de un borrador débil puede ser perjudicial. Finalmente, los experimentos con roles invertidos muestran que los borradores fuertes claramente benefician a los revisores débiles. En última instancia, nuestros hallazgos demuestran que la utilidad de la revisión multi-LLM está dinámicamente limitada por la estructura de la tarea y la calidad del borrador, lo que exige diseños de pipeline más específicos en lugar de estrategias de revisión generalizadas.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

¿Revisión o Resolución? Descomponiendo las Ganancias de la Segunda Pasada en Tuberías Multi-LLM

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Resumen

Support