ChatPaper.aiChatPaper

Rivalutazione del Dibattito Multi-Agente come Scalabilità al Momento del Test: Uno Studio Sistematico sull'Efficacia Condizionata

Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness

May 29, 2025
Autori: Yongjin Yang, Euiin Yi, Jongwoo Ko, Kimin Lee, Zhijing Jin, Se-Young Yun
cs.AI

Abstract

La crescita straordinaria delle capacità dei modelli linguistici di grandi dimensioni (LLM) ha stimolato l'esplorazione di sistemi multi-agente, con i framework di dibattito che emergono come un approccio promettente per migliorare la risoluzione dei problemi. Questi approcci di dibattito multi-agente (MAD), in cui gli agenti presentano, criticano e affinano collaborativamente gli argomenti, offrono potenzialmente un ragionamento migliorato, una maggiore robustezza e prospettive diverse rispetto ai modelli monolitici. Nonostante studi precedenti abbiano sfruttato il MAD, una comprensione sistematica della sua efficacia rispetto ai metodi a singolo agente, specialmente in condizioni variabili, rimane elusiva. Questo articolo cerca di colmare questa lacuna concettualizzando il MAD come una tecnica di scalabilità computazionale al momento del test, caratterizzata da capacità di affinamento collaborativo e di esplorazione diversificata. Conduciamo un'indagine empirica completa confrontando il MAD con solide baseline di scalabilità a singolo agente su compiti di ragionamento matematico e di sicurezza. Il nostro studio esamina sistematicamente l'influenza della difficoltà del compito, della scala del modello e della diversità degli agenti sulle prestazioni del MAD. I risultati chiave rivelano che, per il ragionamento matematico, il MAD offre vantaggi limitati rispetto alla scalabilità a singolo agente, ma diventa più efficace con l'aumentare della difficoltà del problema e la diminuzione della capacità del modello, mentre la diversità degli agenti mostra benefici minimi. Al contrario, per i compiti di sicurezza, l'affinamento collaborativo del MAD può aumentare la vulnerabilità, ma l'incorporazione di configurazioni di agenti diversificati facilita una riduzione graduale del successo degli attacchi attraverso il processo di affinamento collaborativo. Crediamo che i nostri risultati forniscano una guida critica per lo sviluppo futuro di sistemi MAD più efficaci e strategicamente implementati.
English
The remarkable growth in large language model (LLM) capabilities has spurred exploration into multi-agent systems, with debate frameworks emerging as a promising avenue for enhanced problem-solving. These multi-agent debate (MAD) approaches, where agents collaboratively present, critique, and refine arguments, potentially offer improved reasoning, robustness, and diverse perspectives over monolithic models. Despite prior studies leveraging MAD, a systematic understanding of its effectiveness compared to self-agent methods, particularly under varying conditions, remains elusive. This paper seeks to fill this gap by conceptualizing MAD as a test-time computational scaling technique, distinguished by collaborative refinement and diverse exploration capabilities. We conduct a comprehensive empirical investigation comparing MAD with strong self-agent test-time scaling baselines on mathematical reasoning and safety-related tasks. Our study systematically examines the influence of task difficulty, model scale, and agent diversity on MAD's performance. Key findings reveal that, for mathematical reasoning, MAD offers limited advantages over self-agent scaling but becomes more effective with increased problem difficulty and decreased model capability, while agent diversity shows little benefit. Conversely, for safety tasks, MAD's collaborative refinement can increase vulnerability, but incorporating diverse agent configurations facilitates a gradual reduction in attack success through the collaborative refinement process. We believe our findings provide critical guidance for the future development of more effective and strategically deployed MAD systems.
PDF51May 30, 2025