Revisitando el Debate Multiagente como Escalado en Tiempo de Prueba: Un Estudio Sistemático de la Efectividad Condicional

Resumen

El notable crecimiento en las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha impulsado la exploración de sistemas multiagente, con marcos de debate emergiendo como una vía prometedora para la resolución de problemas mejorada. Estos enfoques de debate multiagente (MAD, por sus siglas en inglés), en los que los agentes presentan, critican y refinan argumentos de manera colaborativa, ofrecen potencialmente un razonamiento mejorado, robustez y perspectivas diversas en comparación con los modelos monolíticos. A pesar de estudios previos que han aprovechado MAD, una comprensión sistemática de su efectividad en comparación con métodos de agente único, particularmente bajo diversas condiciones, sigue siendo esquiva. Este artículo busca llenar este vacío conceptualizando MAD como una técnica de escalado computacional en tiempo de prueba, distinguida por capacidades de refinamiento colaborativo y exploración diversa. Realizamos una investigación empírica exhaustiva comparando MAD con líneas base sólidas de escalado en tiempo de prueba de agente único en tareas de razonamiento matemático y relacionadas con la seguridad. Nuestro estudio examina sistemáticamente la influencia de la dificultad de la tarea, la escala del modelo y la diversidad de agentes en el rendimiento de MAD. Los hallazgos clave revelan que, para el razonamiento matemático, MAD ofrece ventajas limitadas sobre el escalado de agente único, pero se vuelve más efectivo con el aumento de la dificultad del problema y la disminución de la capacidad del modelo, mientras que la diversidad de agentes muestra poco beneficio. Por el contrario, para tareas de seguridad, el refinamiento colaborativo de MAD puede aumentar la vulnerabilidad, pero la incorporación de configuraciones diversas de agentes facilita una reducción gradual en el éxito de los ataques a través del proceso de refinamiento colaborativo. Creemos que nuestros hallazgos proporcionan una guía crítica para el desarrollo futuro de sistemas MAD más efectivos y estratégicamente implementados.

English

The remarkable growth in large language model (LLM) capabilities has spurred exploration into multi-agent systems, with debate frameworks emerging as a promising avenue for enhanced problem-solving. These multi-agent debate (MAD) approaches, where agents collaboratively present, critique, and refine arguments, potentially offer improved reasoning, robustness, and diverse perspectives over monolithic models. Despite prior studies leveraging MAD, a systematic understanding of its effectiveness compared to self-agent methods, particularly under varying conditions, remains elusive. This paper seeks to fill this gap by conceptualizing MAD as a test-time computational scaling technique, distinguished by collaborative refinement and diverse exploration capabilities. We conduct a comprehensive empirical investigation comparing MAD with strong self-agent test-time scaling baselines on mathematical reasoning and safety-related tasks. Our study systematically examines the influence of task difficulty, model scale, and agent diversity on MAD's performance. Key findings reveal that, for mathematical reasoning, MAD offers limited advantages over self-agent scaling but becomes more effective with increased problem difficulty and decreased model capability, while agent diversity shows little benefit. Conversely, for safety tasks, MAD's collaborative refinement can increase vulnerability, but incorporating diverse agent configurations facilitates a gradual reduction in attack success through the collaborative refinement process. We believe our findings provide critical guidance for the future development of more effective and strategically deployed MAD systems.

Revisitando el Debate Multiagente como Escalado en Tiempo de Prueba: Un Estudio Sistemático de la Efectividad Condicional

Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

Resumen

Support