Apprentissage Contextuel pour les Discussions Multi-Agents
Context Learning for Multi-Agent Discussion
February 2, 2026
papers.authors: Xingyuan Hua, Sheng Yue, Xinyi Li, Yizhe Zhao, Jinrui Zhang, Ju Ren
cs.AI
papers.abstract
La Discussion Multi-Agent (MAD) a récemment suscité un intérêt croissant, où plusieurs instances de modèles de langage résolvent des problèmes de manière collaborative via une discussion structurée. Cependant, nous constatons que les méthodes MAD actuelles souffrent facilement d'incohérence discussionnelle : les modèles échouent à atteindre une solution cohérente en raison du désalignement entre leurs contextes individuels.
Dans cet article, nous présentons une méthode d'apprentissage de contexte multi-modèle (M2CL) qui apprend un générateur de contexte pour chaque agent, capable de générer dynamiquement des instructions contextuelles à chaque tour de discussion via une organisation et un raffinement automatiques de l'information. Plus précisément, inspiré par nos insights théoriques sur l'instruction contextuelle, M2CL entraîne les générateurs à contrôler la cohérence contextuelle et les divergences de sortie via un mécanisme auto-adaptatif soigneusement conçu.
Cette approche permet aux modèles d'éviter une convergence prématurée sur un bruit majoritaire et d'atteindre progressivement le consensus correct. Nous évaluons M2CL sur des tâches complexes, incluant le raisonnement académique, les tâches incarnées et le contrôle mobile. Les résultats montrent que les performances de M2CL surpassent significativement les méthodes existantes de 20% à 50%, tout en bénéficiant d'une transférabilité et d'une efficacité computationnelle favorables.
English
Multi-Agent Discussion (MAD) has garnered increasing attention very recently, where multiple LLM instances collaboratively solve problems via structured discussion. However, we find that current MAD methods easily suffer from discussion inconsistency, LLMs fail to reach a coherent solution, due to the misalignment between their individual contexts.In this paper, we introduce a multi-LLM context learning method (M2CL) that learns a context generator for each agent, capable of dynamically generating context instructions per discussion round via automatic information organization and refinement. Specifically, inspired by our theoretical insights on the context instruction, M2CL train the generators to control context coherence and output discrepancies via a carefully crafted self-adaptive mechanism.It enables LLMs to avoid premature convergence on majority noise and progressively reach the correct consensus. We evaluate M2CL on challenging tasks, including academic reasoning, embodied tasks, and mobile control. The results show that the performance of M2CL significantly surpasses existing methods by 20%--50%, while enjoying favorable transferability and computational efficiency.