Réexamen du débat multi-agent comme mise à l'échelle au moment du test : une étude systématique de l'efficacité conditionnelle
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Auteurs: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Résumé
La croissance remarquable des capacités des grands modèles de langage (LLM) a stimulé l'exploration des systèmes multi-agents, avec l'émergence de cadres de débat comme une voie prometteuse pour améliorer la résolution de problèmes. Ces approches de débat multi-agents (MAD), où les agents présentent, critiquent et affinent de manière collaborative des arguments, offrent potentiellement un raisonnement amélioré, une robustesse accrue et des perspectives diversifiées par rapport aux modèles monolithiques. Malgré les études antérieures exploitant le MAD, une compréhension systématique de son efficacité par rapport aux méthodes mono-agents, en particulier dans des conditions variées, reste insaisissable. Cet article vise à combler cette lacune en conceptualisant le MAD comme une technique de mise à l'échelle computationnelle au moment du test, caractérisée par un affinement collaboratif et des capacités d'exploration diversifiées. Nous menons une investigation empirique approfondie comparant le MAD à des méthodes de mise à l'échelle mono-agents robustes sur des tâches de raisonnement mathématique et de sécurité. Notre étude examine systématiquement l'influence de la difficulté de la tâche, de l'échelle du modèle et de la diversité des agents sur la performance du MAD. Les principaux résultats révèlent que, pour le raisonnement mathématique, le MAD offre des avantages limités par rapport à la mise à l'échelle mono-agent, mais devient plus efficace avec l'augmentation de la difficulté des problèmes et la diminution des capacités du modèle, tandis que la diversité des agents montre peu de bénéfices. À l'inverse, pour les tâches de sécurité, l'affinement collaboratif du MAD peut augmenter la vulnérabilité, mais l'intégration de configurations d'agents diversifiées facilite une réduction progressive du succès des attaques grâce au processus d'affinement collaboratif. Nous croyons que nos résultats fournissent des orientations critiques pour le développement futur de systèmes MAD plus efficaces et stratégiquement déployés.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.Summary
AI-Generated Summary