共有コンテキストを用いた分散型マルチエージェントシステム
Decentralized Multi-Agent Systems with Shared Context
June 9, 2026
著者: Yuzhen Mao, Azalia Mirhoseini
cs.AI
要旨
マルチエージェントシステム(MAS)は、複雑な問題を並列サブタスクに分解することで、大規模言語モデルのテスト時推論を拡張できる。しかし、既存のMASの大半は中央集権的なオーケストレーションに依存しており、主エージェントが作業を割り当て、出力を収集し、結果を統合する。サブタスクの数が増加するにつれて、このコントローラは通信と統合のボトルネックとなる。本稿では、並列エージェント、共有検証コンテキスト、タスクキューを通じて調整を分散化するMASフレームワークであるDecentralized Language Models(DeLM)を提案する。エージェントは非同期的にサブタスクを取得し、蓄積された進捗を読み取り、局所的な推論を実行し、コンパクトな検証済み更新を書き戻す。共有コンテキストは共通の通信基盤として機能し、エージェントがすべての更新を中央コントローラ経由でルーティングすることなく、互いの検証済み進捗の上に構築することを可能にする。実験的に、DeLMはソフトウェアエンジニアリングのテスト時スケーリングと長文脈推論の両方を改善する。SWE-bench Verifiedでは、DeLMはAvg.@1、Pass@2、Pass@4のすべてにおいて最高性能を達成し、最も強力なベースラインを最大10.5パーセントポイント上回りつつ、タスクあたりのコストを約50%削減した。LongBench-v2 Multi-Doc QAでは、DeLMは4つのフロンティアモデルファミリー全体で最高の平均精度を達成し、最も強力なベースラインを最大5.7パーセントポイント上回った。コードはプロジェクトWebサイト(https://yuzhenmao.github.io/DeLM/)で公開されている。
English
Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. However, most existing MAS rely on centralized orchestration, where a main agent assigns work, collects outputs, and merges results. As the number of subtasks grows, this controller becomes a communication and integration bottleneck. We propose Decentralized Language Models (DeLM), a MAS framework that decentralizes coordination through parallel agents, a shared verified context, and a task queue. Agents asynchronously claim subtasks, read accumulated progress, perform local reasoning, and write back compact verified updates. The shared context acts as a common communication substrate, enabling agents to build on one another's verified progress without routing every update through a central controller. Empirically, DeLM improves both software-engineering test-time scaling and long-context reasoning. On SWE-bench Verified, DeLM achieves the best performance across Avg.@1, Pass@2, and Pass@4, with gains of up to 10.5 percentage points over the strongest baseline, while reducing cost per task by roughly 50%. On LongBench-v2 Multi-Doc QA, DeLM achieves the highest average accuracy across four frontier model families, improving over the strongest baseline by up to 5.7 percentage points. The code is available on our project website at https://yuzhenmao.github.io/DeLM/.