Dezentrale Multi-Agenten-Systeme mit gemeinsamem Kontext

Zusammenfassung

Mehr-Agenten-Systeme (MAS) können das Reasoning großer Sprachmodelle zur Testzeit skalieren, indem sie komplexe Probleme in parallele Teilaufgaben zerlegen. Die meisten existierenden MAS stützen sich jedoch auf eine zentrale Orchestrierung, bei der ein Haupt-Agent Aufgaben zuweist, Ergebnisse sammelt und zusammenführt. Mit wachsender Anzahl an Teilaufgaben wird dieser Kontrolleur zu einem Kommunikations- und Integrationsengpass. Wir schlagen Decentralized Language Models (DeLM) vor, ein MAS-Framework, das die Koordination durch parallele Agenten, einen gemeinsamen verifizierten Kontext und eine Aufgabenwarteschlange dezentralisiert. Agenten beanspruchen asynchron Teilaufgaben, lesen den akkumulierten Fortschritt, führen lokales Reasoning durch und schreiben kompakte, verifizierte Aktualisierungen zurück. Der gemeinsame Kontext fungiert als gemeinsames Kommunikationssubstrat und ermöglicht es Agenten, auf dem verifizierten Fortschritt anderer aufzubauen, ohne jede Aktualisierung über einen zentralen Kontrolleur leiten zu müssen. Empirisch verbessert DeLM sowohl das Testzeit-Scaling im Software-Engineering als auch das Reasoning über lange Kontexte hinweg. Auf SWE-bench Verified erzielt DeLM die beste Leistung bei Avg.@1, Pass@2 und Pass@4 mit Verbesserungen von bis zu 10,5 Prozentpunkten gegenüber der stärksten Baseline, während die Kosten pro Aufgabe um etwa 50 % gesenkt werden. Auf LongBench-v2 Multi-Doc QA erreicht DeLM die höchste durchschnittliche Genauigkeit über vier frontier Modellfamilien hinweg und verbessert sich gegenüber der stärksten Baseline um bis zu 5,7 Prozentpunkte. Der Code ist auf unserer Projektwebsite unter https://yuzhenmao.github.io/DeLM/ verfügbar.

English

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.