Systèmes multi-agents décentralisés avec contexte partagé

Résumé

Les systèmes multi-agents (SMA) peuvent passer à l'échelle le raisonnement des grands modèles de langage au moment du test en décomposant les problèmes complexes en sous-tâches parallèles. Cependant, la plupart des SMA existants reposent sur une orchestration centralisée, où un agent principal assigne le travail, collecte les sorties et fusionne les résultats. À mesure que le nombre de sous-tâches augmente, ce contrôleur devient un goulot d'étranglement en matière de communication et d'intégration. Nous proposons DeLM (Decentralized Language Models), un cadre SMA qui décentralise la coordination via des agents parallèles, un contexte vérifié partagé et une file d'attente de tâches. Les agents revendiquent de manière asynchrone les sous-tâches, lisent la progression accumulée, effectuent un raisonnement local et écrivent des mises à jour vérifiées compactes. Le contexte partagé agit comme un substrat de communication commun, permettant aux agents de s'appuyer sur les progrès vérifiés des uns et des autres sans acheminer chaque mise à jour via un contrôleur central. Empiriquement, DeLM améliore à la fois le passage à l'échelle du raisonnement au moment du test en génie logiciel et le raisonnement sur de longs contextes. Sur SWE-bench Verified, DeLM atteint les meilleures performances en Avg.@1, Pass@2 et Pass@4, avec des gains allant jusqu'à 10,5 points de pourcentage par rapport à la baseline la plus forte, tout en réduisant le coût par tâche d'environ 50 %. Sur LongBench-v2 Multi-Doc QA, DeLM atteint la précision moyenne la plus élevée parmi quatre familles de modèles de pointe, améliorant la baseline la plus forte de jusqu'à 5,7 points de pourcentage. Le code est disponible sur notre site web du projet à l'adresse https://yuzhenmao.github.io/DeLM/.

English

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.