Децентрализованные многоагентные системы с общим контекстом

Аннотация

Многогагентные системы (MAS) позволяют масштабировать рассуждения больших языковых моделей во время тестирования за счёт разложения сложных задач на параллельные подзадачи. Однако большинство существующих MAS опираются на централизованную оркестровку, где главный агент распределяет задания, собирает результаты и объединяет их. По мере роста числа подзадач такой контроллер превращается в узкое место коммуникации и интеграции. Мы предлагаем Децентрализованные языковые модели (DeLM) — архитектуру MAS, которая децентрализует координацию через параллельных агентов, общий верифицированный контекст и очередь задач. Агенты асинхронно берут подзадачи, читают накопленный прогресс, выполняют локальные рассуждения и записывают компактные верифицированные обновления. Общий контекст служит общей коммуникационной средой, позволяя агентам опираться на верифицированный прогресс друг друга без необходимости направлять каждое обновление через центральный контроллер. Эмпирически DeLM улучшает как масштабирование тестового времени в разработке ПО, так и рассуждения в длинных контекстах. На SWE-bench Verified DeLM достигает наилучших результатов по Avg.@1, Pass@2 и Pass@4 с приростом до 10,5 процентных пунктов по сравнению с самым сильным базовым методом, сокращая затраты на задачу примерно на 50%. На LongBench-v2 Multi-Doc QA DeLM достигает наивысшей средней точности среди четырёх семейств frontier-моделей, улучшая самый сильный базовый метод на величину до 5,7 процентных пунктов. Код доступен на нашем сайте проекта: https://yuzhenmao.github.io/DeLM/.

English

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.