Apprendimento Contestuale per la Discussione Multi-Agente
Context Learning for Multi-Agent Discussion
February 2, 2026
Autori: Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren
cs.AI
Abstract
La Discussione Multi-Agente (MAD) ha recentemente attirato un'attenzione crescente, dove più istanze di LLM risolvono problemi in modo collaborativo attraverso discussioni strutturate. Tuttavia, rileviamo che gli attuali metodi MAD sono facilmente soggetti a incoerenza della discussione, in cui gli LLM non riescono a raggiungere una soluzione coerente a causa del disallineamento tra i loro contesti individuali. In questo articolo, introduciamo un metodo di apprendimento del contesto multi-LLM (M2CL) che apprende un generatore di contesto per ogni agente, in grado di generare dinamicamente istruzioni di contesto per ogni round di discussione attraverso l'organizzazione e il raffinamento automatico delle informazioni. Nello specifico, ispirandoci alle nostre intuizioni teoriche sull'istruzione di contesto, M2CL addestra i generatori a controllare la coerenza del contesto e le discrepanze in output attraverso un meccanismo auto-adattativo accuratamente progettato. Ciò consente agli LLM di evitare una convergenza prematura sul rumore di maggioranza e di raggiungere progressivamente il consenso corretto. Valutiamo M2CL su compiti impegnativi, includendo il ragionamento accademico, compiti embodied e controllo mobile. I risultati mostrano che le prestazioni di M2CL superano significativamente i metodi esistenti del 20%-50%, godendo al contempo di una favorevole trasferibilità ed efficienza computazionale.
English
Multi-Agent Discussion (MAD) has garnered increasing attention very recently, where multiple LLM instances collaboratively solve problems via structured discussion. However, we find that current MAD methods easily suffer from discussion inconsistency, LLMs fail to reach a coherent solution, due to the misalignment between their individual contexts.In this paper, we introduce a multi-LLM context learning method (M2CL) that learns a context generator for each agent, capable of dynamically generating context instructions per discussion round via automatic information organization and refinement. Specifically, inspired by our theoretical insights on the context instruction, M2CL train the generators to control context coherence and output discrepancies via a carefully crafted self-adaptive mechanism.It enables LLMs to avoid premature convergence on majority noise and progressively reach the correct consensus. We evaluate M2CL on challenging tasks, including academic reasoning, embodied tasks, and mobile control. The results show that the performance of M2CL significantly surpasses existing methods by 20%--50%, while enjoying favorable transferability and computational efficiency.