Kontextlernen für Multi-Agenten-Diskussionen
Context Learning for Multi-Agent Discussion
February 2, 2026
papers.authors: Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren
cs.AI
papers.abstract
Multi-Agent Discussion (MAD) hat in jüngster Zeit zunehmend an Aufmerksamkeit gewonnen, wobei mehrere LLM-Instanzen durch strukturierte Diskussionen gemeinsam Probleme lösen. Wir stellen jedoch fest, dass aktuelle MAD-Methoden leicht unter Diskussionsinkonsistenzen leiden, da LLMs aufgrund mangelnder Übereinstimmung ihrer individuellen Kontexte keine kohärente Lösung erzielen können. In diesem Artikel stellen wir eine Multi-LLM-Kontextlernmethode (M2CL) vor, die für jeden Agenten einen Kontextgenerator lernt, der in der Lage ist, durch automatische Informationsorganisation und -verfeinerung kontextbezogene Instruktionen pro Diskussionsrunde dynamisch zu generieren. Konkret trainiert M2CL, inspiriert durch unsere theoretischen Einsichten zu Kontextinstruktionen, die Generatoren mittels eines speziell entwickelten selbstadaptiven Mechanismus, um Kontextkohärenz und Ausgabediskrepanzen zu steuern. Dies ermöglicht es LLMs, eine vorzeitige Konvergenz auf Mehrheitsrauschen zu vermeiden und schrittweise den korrekten Konsens zu erreichen. Wir evaluieren M2CL auf anspruchsvollen Aufgaben, darunter akademisches Reasoning, embodied tasks und mobile Steuerung. Die Ergebnisse zeigen, dass die Leistung von M2CL bestehende Methoden signifikant um 20 % bis 50 % übertrifft, bei gleichzeitig guter Übertragbarkeit und Recheneffizienz.
English
Multi-Agent Discussion (MAD) has garnered increasing attention very recently, where multiple LLM instances collaboratively solve problems via structured discussion. However, we find that current MAD methods easily suffer from discussion inconsistency, LLMs fail to reach a coherent solution, due to the misalignment between their individual contexts.In this paper, we introduce a multi-LLM context learning method (M2CL) that learns a context generator for each agent, capable of dynamically generating context instructions per discussion round via automatic information organization and refinement. Specifically, inspired by our theoretical insights on the context instruction, M2CL train the generators to control context coherence and output discrepancies via a carefully crafted self-adaptive mechanism.It enables LLMs to avoid premature convergence on majority noise and progressively reach the correct consensus. We evaluate M2CL on challenging tasks, including academic reasoning, embodied tasks, and mobile control. The results show that the performance of M2CL significantly surpasses existing methods by 20%--50%, while enjoying favorable transferability and computational efficiency.