Revisitando el Debate Multiagente como Escalado en Tiempo de Prueba: Un Estudio Sistemático de la Efectividad Condicional
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Autores: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Resumen
El notable crecimiento en las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha impulsado la exploración de sistemas multiagente, con marcos de debate emergiendo como una vía prometedora para la resolución de problemas mejorada. Estos enfoques de debate multiagente (MAD, por sus siglas en inglés), en los que los agentes presentan, critican y refinan argumentos de manera colaborativa, ofrecen potencialmente un razonamiento mejorado, robustez y perspectivas diversas en comparación con los modelos monolíticos. A pesar de estudios previos que han aprovechado MAD, una comprensión sistemática de su efectividad en comparación con métodos de agente único, particularmente bajo diversas condiciones, sigue siendo esquiva. Este artículo busca llenar este vacío conceptualizando MAD como una técnica de escalado computacional en tiempo de prueba, distinguida por capacidades de refinamiento colaborativo y exploración diversa. Realizamos una investigación empírica exhaustiva comparando MAD con líneas base sólidas de escalado en tiempo de prueba de agente único en tareas de razonamiento matemático y relacionadas con la seguridad. Nuestro estudio examina sistemáticamente la influencia de la dificultad de la tarea, la escala del modelo y la diversidad de agentes en el rendimiento de MAD. Los hallazgos clave revelan que, para el razonamiento matemático, MAD ofrece ventajas limitadas sobre el escalado de agente único, pero se vuelve más efectivo con el aumento de la dificultad del problema y la disminución de la capacidad del modelo, mientras que la diversidad de agentes muestra poco beneficio. Por el contrario, para tareas de seguridad, el refinamiento colaborativo de MAD puede aumentar la vulnerabilidad, pero la incorporación de configuraciones diversas de agentes facilita una reducción gradual en el éxito de los ataques a través del proceso de refinamiento colaborativo. Creemos que nuestros hallazgos proporcionan una guía crítica para el desarrollo futuro de sistemas MAD más efectivos y estratégicamente implementados.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.Summary
AI-Generated Summary