ChatPaper.aiChatPaper

Heroverweging van Multi-Agent Debatteren als Schaalbaarheid tijdens Testen: Een Systematische Studie naar Voorwaardelijke Effectiviteit

Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

May 29, 2025
Auteurs: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI

Samenvatting

De opmerkelijke groei in de mogelijkheden van grote taalmodellen (LLM's) heeft geleid tot verkenning van multi-agent systemen, waarbij debatkaders naar voren komen als een veelbelovende benadering voor verbeterd probleemoplossen. Deze multi-agent debat (MAD) methoden, waarbij agenten samen argumenten presenteren, bekritiseren en verfijnen, bieden mogelijk verbeterde redenering, robuustheid en diverse perspectieven in vergelijking met monolithische modellen. Ondanks eerdere studies die MAD benutten, blijft een systematisch begrip van de effectiviteit ervan in vergelijking met zelf-agent methoden, vooral onder wisselende omstandigheden, ongrijpbaar. Dit artikel tracht deze leemte te vullen door MAD te conceptualiseren als een testtijd computationele schaaltechniek, gekenmerkt door collaboratieve verfijning en diverse verkenningmogelijkheden. We voeren een uitgebreid empirisch onderzoek uit waarin MAD wordt vergeleken met sterke zelf-agent testtijd schaalbenchmarks op wiskundig redeneren en veiligheidsgerelateerde taken. Onze studie onderzoekt systematisch de invloed van taakmoeilijkheid, modelschaal en agentdiversiteit op de prestaties van MAD. Belangrijke bevindingen tonen aan dat, voor wiskundig redeneren, MAD beperkte voordelen biedt ten opzichte van zelf-agent schaling, maar effectiever wordt met toenemende probleemmoeilijkheid en afnemende modelcapaciteit, terwijl agentdiversiteit weinig voordeel biedt. Daarentegen kan voor veiligheidstaken de collaboratieve verfijning van MAD de kwetsbaarheid vergroten, maar het opnemen van diverse agentconfiguraties vergemakkelijkt een geleidelijke vermindering van de aanvalssucces door het collaboratieve verfijningsproces. Wij geloven dat onze bevindingen cruciale richtlijnen bieden voor de toekomstige ontwikkeling van effectiever en strategischer ingezette MAD-systemen.
English
The remarkable growth in large language model (LLM) capabilities has spurred exploration into multi-agent systems, with debate frameworks emerging as a promising avenue for enhanced problem-solving. These multi-agent debate (MAD) approaches, where agents collaboratively present, critique, and refine arguments, potentially offer improved reasoning, robustness, and diverse perspectives over monolithic models. Despite prior studies leveraging MAD, a systematic understanding of its effectiveness compared to self-agent methods, particularly under varying conditions, remains elusive. This paper seeks to fill this gap by conceptualizing MAD as a test-time computational scaling technique, distinguished by collaborative refinement and diverse exploration capabilities. We conduct a comprehensive empirical investigation comparing MAD with strong self-agent test-time scaling baselines on mathematical reasoning and safety-related tasks. Our study systematically examines the influence of task difficulty, model scale, and agent diversity on MAD's performance. Key findings reveal that, for mathematical reasoning, MAD offers limited advantages over self-agent scaling but becomes more effective with increased problem difficulty and decreased model capability, while agent diversity shows little benefit. Conversely, for safety tasks, MAD's collaborative refinement can increase vulnerability, but incorporating diverse agent configurations facilitates a gradual reduction in attack success through the collaborative refinement process. We believe our findings provide critical guidance for the future development of more effective and strategically deployed MAD systems.
PDF51May 30, 2025