Revisão ou Nova Resolução? Decompondo Ganhos da Segunda Passagem em Pipelines Multi-LLM

Resumo

Os pipelines de revisão multi-LLM, nos quais um segundo modelo revisa e melhora um rascunho produzido por um primeiro, são amplamente assumidos como derivando seus ganhos da correção genuína de erros. Questionamos essa suposição com um experimento de decomposição controlada que utiliza quatro condições equivalentes para separar os ganhos da segunda passagem em três componentes aditivos: re-resolução, scaffolding e conteúdo. Avaliamos esse projeto com dois pares de modelos em três benchmarks abrangendo MCQ intensivos em conhecimento e programação competitiva. Nossos resultados mostram que os ganhos da revisão multi-LLM não são monolíticos, mas dependem da estrutura da tarefa, da qualidade do rascunho e do tipo de informação do rascunho. Em tarefas de MCQ, onde o espaço de resposta é restrito e os rascunhos fornecem pouca orientação estrutural, a maioria dos ganhos é consistente com a re-resolução do modelo mais forte, e o roteamento direto de consultas para o modelo mais forte pode ser mais eficaz do que revisar um rascunho fraco. Em tarefas de geração de código, no entanto, a solicitação em dois estágios permanece útil porque mesmo rascunhos semanticamente nulos podem fornecer um scaffolding estrutural substancial, enquanto o conteúdo de rascunhos fracos pode ser prejudicial. Finalmente, experimentos com papéis invertidos mostram que rascunhos fortes claramente beneficiam revisores fracos. Em última análise, nossos achados demonstram que a utilidade da revisão multi-LLM é dinamicamente limitada pela estrutura da tarefa e pela qualidade do rascunho, necessitando de projetos de pipeline mais direcionados em vez de estratégias de revisão genéricas.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Revisão ou Nova Resolução? Decompondo Ganhos da Segunda Passagem em Pipelines Multi-LLM

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Resumo

Support