Context Leren voor Multi-Agent Discussie
Context Learning for Multi-Agent Discussion
February 2, 2026
Auteurs: Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren
cs.AI
Samenvatting
Multi-Agent Discussion (MAD) heeft recentelijk sterk aan aandacht gewonnen. Hierbij werken meerdere LLM-instanties samen om problemen op te lossen via gestructureerde discussie. Wij constateren echter dat huidige MAD-methoden gemakkelijk lijden onder discussie-inconsistentie, waarbij de LLM's er niet in slagen een coherente oplossing te bereiken door een gebrek aan afstemming tussen hun individuele contexten.
In dit artikel introduceren we een multi-LLM contextleermethode (M2CL) die een contextgenerator voor elke agent leert. Deze generator is in staat om per discussieronde dynamisch contextinstructies te genereren via automatische informatie-organisatie en -verfijning. Specifiek, geïnspireerd door onze theoretische inzichten in contextinstructie, traint M2CL de generators om contextcoherentie en outputdiscrepanties te beheersen via een zorgvuldig ontworpen zelfadaptief mechanisme. Hierdoor kunnen LLM's voortijdige convergentie op meerderheidsruis vermijden en geleidelijk het juiste consensus bereiken.
We evalueren M2CL op uitdagende taken, waaronder academisch redeneren, belichaamde taken en mobiele besturing. De resultaten tonen aan dat de prestaties van M2CL bestaande methoden met 20% tot 50% significant overtreffen, terwijl het ook gunstige overdraagbaarheid en computationele efficiëntie biedt.
English
Multi-Agent Discussion (MAD) has garnered increasing attention very recently, where multiple LLM instances collaboratively solve problems via structured discussion. However, we find that current MAD methods easily suffer from discussion inconsistency, LLMs fail to reach a coherent solution, due to the misalignment between their individual contexts.In this paper, we introduce a multi-LLM context learning method (M2CL) that learns a context generator for each agent, capable of dynamically generating context instructions per discussion round via automatic information organization and refinement. Specifically, inspired by our theoretical insights on the context instruction, M2CL train the generators to control context coherence and output discrepancies via a carefully crafted self-adaptive mechanism.It enables LLMs to avoid premature convergence on majority noise and progressively reach the correct consensus. We evaluate M2CL on challenging tasks, including academic reasoning, embodied tasks, and mobile control. The results show that the performance of M2CL significantly surpasses existing methods by 20%--50%, while enjoying favorable transferability and computational efficiency.