Revisitando o Debate Multiagente como Escalonamento em Tempo de Teste: Um Estudo Sistemático da Eficácia Condicional
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Autores: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Resumo
O crescimento notável nas capacidades dos modelos de linguagem de grande escala (LLMs) tem impulsionado a exploração de sistemas multiagentes, com estruturas de debate emergindo como uma abordagem promissora para a resolução aprimorada de problemas. Essas abordagens de debate multiagente (MAD), nas quais os agentes colaboram para apresentar, criticar e refinar argumentos, potencialmente oferecem raciocínio aprimorado, robustez e perspectivas diversas em comparação com modelos monolíticos. Apesar de estudos anteriores terem utilizado MAD, uma compreensão sistemática de sua eficácia em relação a métodos de agente único, particularmente sob condições variadas, ainda é escassa. Este artigo busca preencher essa lacuna ao conceituar MAD como uma técnica de escalonamento computacional em tempo de teste, distinguida por capacidades de refinamento colaborativo e exploração diversificada. Realizamos uma investigação empírica abrangente comparando MAD com fortes baselines de escalonamento em tempo de teste de agente único em tarefas de raciocínio matemático e relacionadas à segurança. Nosso estudo examina sistematicamente a influência da dificuldade da tarefa, da escala do modelo e da diversidade de agentes no desempenho do MAD. Principais descobertas revelam que, para o raciocínio matemático, o MAD oferece vantagens limitadas em relação ao escalonamento de agente único, mas se torna mais eficaz com o aumento da dificuldade do problema e a diminuição da capacidade do modelo, enquanto a diversidade de agentes mostra pouco benefício. Por outro lado, para tarefas de segurança, o refinamento colaborativo do MAD pode aumentar a vulnerabilidade, mas a incorporação de configurações diversas de agentes facilita uma redução gradual no sucesso de ataques por meio do processo de refinamento colaborativo. Acreditamos que nossas descobertas fornecem orientações críticas para o desenvolvimento futuro de sistemas MAD mais eficazes e estrategicamente implantados.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.