Rivalutazione del Dibattito Multi-Agente come Scalabilità al Momento del Test: Uno Studio Sistematico sull'Efficacia Condizionata
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness
May 29, 2025
Autori: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI
Abstract
La crescita straordinaria delle capacità dei modelli linguistici di grandi dimensioni (LLM) ha stimolato l'esplorazione di sistemi multi-agente, con i framework di dibattito che emergono come un approccio promettente per migliorare la risoluzione dei problemi. Questi approcci di dibattito multi-agente (MAD), in cui gli agenti presentano, criticano e affinano collaborativamente gli argomenti, offrono potenzialmente un ragionamento migliorato, una maggiore robustezza e prospettive diverse rispetto ai modelli monolitici. Nonostante studi precedenti abbiano sfruttato il MAD, una comprensione sistematica della sua efficacia rispetto ai metodi a singolo agente, specialmente in condizioni variabili, rimane elusiva. Questo articolo cerca di colmare questa lacuna concettualizzando il MAD come una tecnica di scalabilità computazionale al momento del test, caratterizzata da capacità di affinamento collaborativo e di esplorazione diversificata. Conduciamo un'indagine empirica completa confrontando il MAD con solide baseline di scalabilità a singolo agente su compiti di ragionamento matematico e di sicurezza. Il nostro studio esamina sistematicamente l'influenza della difficoltà del compito, della scala del modello e della diversità degli agenti sulle prestazioni del MAD. I risultati chiave rivelano che, per il ragionamento matematico, il MAD offre vantaggi limitati rispetto alla scalabilità a singolo agente, ma diventa più efficace con l'aumentare della difficoltà del problema e la diminuzione della capacità del modello, mentre la diversità degli agenti mostra benefici minimi. Al contrario, per i compiti di sicurezza, l'affinamento collaborativo del MAD può aumentare la vulnerabilità, ma l'incorporazione di configurazioni di agenti diversificati facilita una riduzione graduale del successo degli attacchi attraverso il processo di affinamento collaborativo. Crediamo che i nostri risultati forniscano una guida critica per lo sviluppo futuro di sistemi MAD più efficaci e strategicamente implementati.
English
The remarkable growth in large language model (LLM) capabilities has spurred
exploration into multi-agent systems, with debate frameworks emerging as a
promising avenue for enhanced problem-solving. These multi-agent debate (MAD)
approaches, where agents collaboratively present, critique, and refine
arguments, potentially offer improved reasoning, robustness, and diverse
perspectives over monolithic models. Despite prior studies leveraging MAD, a
systematic understanding of its effectiveness compared to self-agent methods,
particularly under varying conditions, remains elusive. This paper seeks to
fill this gap by conceptualizing MAD as a test-time computational scaling
technique, distinguished by collaborative refinement and diverse exploration
capabilities. We conduct a comprehensive empirical investigation comparing MAD
with strong self-agent test-time scaling baselines on mathematical reasoning
and safety-related tasks. Our study systematically examines the influence of
task difficulty, model scale, and agent diversity on MAD's performance. Key
findings reveal that, for mathematical reasoning, MAD offers limited advantages
over self-agent scaling but becomes more effective with increased problem
difficulty and decreased model capability, while agent diversity shows little
benefit. Conversely, for safety tasks, MAD's collaborative refinement can
increase vulnerability, but incorporating diverse agent configurations
facilitates a gradual reduction in attack success through the collaborative
refinement process. We believe our findings provide critical guidance for the
future development of more effective and strategically deployed MAD systems.