Пересмотр дебатов между агентами как масштабирования на этапе тестирования: систематическое исследование условной эффективности
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Авторы: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Аннотация
Заметный рост возможностей крупных языковых моделей (LLM) стимулировал исследования в области мультиагентных систем, при этом дебаты в рамках таких систем стали перспективным направлением для улучшения решения задач. Эти подходы, известные как мультиагентные дебаты (MAD), где агенты совместно представляют, критикуют и уточняют аргументы, потенциально предлагают улучшенные рассуждения, устойчивость и разнообразие перспектив по сравнению с монолитными моделями. Несмотря на предыдущие исследования, использующие MAD, систематическое понимание их эффективности по сравнению с методами, основанными на одном агенте, особенно в различных условиях, остается недостаточным. Данная работа стремится заполнить этот пробел, концептуализируя MAD как метод масштабирования вычислений на этапе тестирования, отличающийся возможностями совместного уточнения и разнообразного исследования. Мы проводим всестороннее эмпирическое исследование, сравнивая MAD с сильными базовыми методами масштабирования на этапе тестирования, основанными на одном агенте, в задачах математического рассуждения и безопасности. Наше исследование систематически изучает влияние сложности задачи, масштаба модели и разнообразия агентов на производительность MAD. Ключевые результаты показывают, что для математического рассуждения MAD предлагает ограниченные преимущества по сравнению с масштабированием на одном агенте, но становится более эффективным с увеличением сложности задачи и уменьшением возможностей модели, при этом разнообразие агентов не приносит значительной пользы. Напротив, для задач безопасности совместное уточнение в MAD может повысить уязвимость, но включение разнообразных конфигураций агентов способствует постепенному снижению успешности атак через процесс совместного уточнения. Мы считаем, что наши результаты предоставляют важные рекомендации для будущего развития более эффективных и стратегически развернутых систем MAD.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.