Neubewertung von Multi-Agenten-Debatten als Testzeit-Skalierung: Eine systematische Studie zur bedingten Effektivität
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Autoren: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Zusammenfassung
Das bemerkenswerte Wachstum der Fähigkeiten großer Sprachmodelle (LLMs) hat die Erforschung von Multi-Agenten-Systemen vorangetrieben, wobei Debattenrahmen als vielversprechender Ansatz für verbesserte Problemlösungen hervorgegangen sind. Diese Multi-Agenten-Debatten (MAD)-Ansätze, bei denen Agenten gemeinsam Argumente präsentieren, kritisieren und verfeinern, bieten potenziell verbessertes Denkvermögen, Robustheit und vielfältige Perspektiven im Vergleich zu monolithischen Modellen. Trotz früherer Studien, die MAD nutzten, bleibt ein systematisches Verständnis seiner Effektivität im Vergleich zu Einzelagentenmethoden, insbesondere unter variierenden Bedingungen, schwer fassbar. Diese Arbeit zielt darauf ab, diese Lücke zu schließen, indem MAD als eine Testzeit-Rechenskalierungstechnik konzeptualisiert wird, die sich durch kollaborative Verfeinerung und vielfältige Erkundungsfähigkeiten auszeichnet. Wir führen eine umfassende empirische Untersuchung durch, in der MAD mit starken Einzelagenten-Testzeit-Skalierungsbaselines bei mathematischen Denkaufgaben und sicherheitsrelevanten Aufgaben verglichen wird. Unsere Studie untersucht systematisch den Einfluss von Aufgabenkomplexität, Modellgröße und Agentenvielfalt auf die Leistung von MAD. Wichtige Erkenntnisse zeigen, dass MAD bei mathematischen Denkaufgaben nur begrenzte Vorteile gegenüber der Einzelagenten-Skalierung bietet, jedoch mit zunehmender Problemkomplexität und abnehmender Modellfähigkeit effektiver wird, während die Agentenvielfalt wenig Nutzen zeigt. Im Gegensatz dazu kann bei Sicherheitsaufgaben die kollaborative Verfeinerung von MAD die Anfälligkeit erhöhen, aber die Einbindung vielfältiger Agentenkonfigurationen ermöglicht eine schrittweise Reduzierung des Angriffserfolgs durch den kollaborativen Verfeinerungsprozess. Wir glauben, dass unsere Erkenntnisse entscheidende Leitlinien für die zukünftige Entwicklung effektiverer und strategisch eingesetzter MAD-Systeme liefern.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.Summary
AI-Generated Summary