Gedecentraliseerde multi-agentsystemen met gedeelde context

Samenvatting

Multi-agent systemen (MAS) kunnen het redeneren van grote taalmodellen tijdens testtijd schalen door complexe problemen te decomponeren in parallelle subtaken. De meeste bestaande MAS vertrouwen echter op gecentraliseerde orkestratie, waarbij een hoofdagent werk toewijst, outputs verzamelt en resultaten samenvoegt. Naarmate het aantal subtaken groeit, wordt deze controller een communicatie- en integratieflessenhals. Wij stellen Gedecentraliseerde Taalmodellen (DeLM) voor, een MAS-raamwerk dat coördinatie decentraliseert via parallelle agenten, een gedeelde geverifieerde context en een takenwachtrij. Agenten claimen asynchroon subtaken, lezen de opgebouwde voortgang, voeren lokaal redeneren uit en schrijven compacte geverifieerde updates terug. De gedeelde context fungeert als een gemeenschappelijk communicatiesubstraat, waardoor agenten kunnen voortbouwen op elkaars geverifieerde voortgang zonder elke update via een centrale controller te routeren. Empirisch verbetert DeLM zowel de testtijd schaling in software-engineering als het redeneren over lange contexten. Op SWE-bench Verified behaalt DeLM de beste prestaties over Avg.@1, Pass@2 en Pass@4, met winsten van tot 10,5 procentpunten ten opzichte van de sterkste basislijn, terwijl de kosten per taak met ongeveer 50% worden verlaagd. Op LongBench-v2 Multi-Doc QA behaalt DeLM de hoogste gemiddelde nauwkeurigheid over vier geavanceerde modelfamilies, wat een verbetering is ten opzichte van de sterkste basislijn met tot 5,7 procentpunten. De code is beschikbaar op onze projectwebsite op https://yuzhenmao.github.io/DeLM/.

English

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.