ChatPaper.aiChatPaper

DarkForest: 少ない対話、高い精度を実現するマルチエージェントLLM

DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs

May 24, 2026
著者: Yi Li, Songtao Wei, Dongming Jiang, Zhichun Guo, Qiannan Li, Bingzhe Li
cs.AI

要旨

マルチエージェントLLMシステムは、複数のエージェントからの出力を組み合わせることで推論能力を向上させるが、相互作用に依存する手法はエラーの伝播や高い通信オーバーヘッドを引き起こす可能性がある。エージェントが生の応答や推論トレースを交換すると、誤った中間推論が採用・増幅され、確信度は高いが誤った合意に至ることがある。また、複数回の通信はトークン消費、遅延、推論コストを増大させる。本論文では、DarkForestと名付けた制御通信協調フレームワークを提案する。DarkForestはまずエージェントを独立に保ち、各エージェントが他者の出力を見ずに回答を生成する。次に、生の応答を構造化された候補レコードに解析し、意味的に等価な候補をクラスタにグループ化し、エージェントの信頼性、確信度、解析品質、サポートパターンの信頼性、独立性補正を用いて、これらのクラスタに対する校正された信念分布を推定する。コーディネーターは、この信念状態からポリシーで許可された証拠のみを制御通信により受け取る。6つの推論ベンチマークにおける実験では、DarkForestが全体的な品質でリーダーとなり、最も優れたベースラインをベンチマーク指標で最大30.7%上回り、通信負荷の高いベースラインと比較してトークン消費を最大6.5倍削減することを示した。
English
Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.