DarkForest: 적은 대화, 높은 정확도를 위한 다중 에이전트 LLM
DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs
May 24, 2026
저자: Yi Li, Songtao Wei, Dongming Jiang, Zhichun Guo, Qiannan Li, Bingzhe Li
cs.AI
초록
다중 에이전트 LLM 시스템은 여러 에이전트의 출력을 결합하여 추론 성능을 개선하지만, 상호작용이 많은 방법은 오류 전파와 높은 통신 오버헤드를 초래할 수 있다. 에이전트가 원시 응답이나 추론 추적을 교환할 때, 부정확한 중간 추론이 수용되어 증폭될 수 있으며, 이는 확신에 찬 잘못된 합의로 이어질 수 있다. 또한, 다중 라운드 통신은 토큰 소비, 지연 시간 및 추론 비용을 증가시킨다. 본 논문에서는 DarkForest라는 통제된 통신 조정 프레임워크를 제안한다. DarkForest는 먼저 에이전트를 독립적으로 유지하여 각 에이전트가 다른 에이전트의 출력을 보지 않고 답변을 생성하도록 한다. 그런 다음 원시 응답을 구조화된 후보 기록으로 파싱하고, 의미적으로 동등한 후보를 클러스터로 그룹화하며, 에이전트 신뢰도, 확신도, 파싱 품질, 지원 패턴 신뢰도 및 독립성 보정을 사용하여 이러한 클러스터에 대한 보정된 신뢰 분포를 추정한다. 조정기는 통제된 통신을 통해 이 신뢰 상태에서 정책이 허용하는 증거만을 수신한다. 6가지 추론 벤치마크에 대한 실험 결과, DarkForest는 전반적으로 최고의 품질을 달성하고, 가장 강력한 기준 모델 대비 벤치마크 지표에서 최대 30.7% 개선되었으며, 통신 집약적 기준 모델 대비 토큰 소비를 최대 6.5배까지 감소시킨다.
English
Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.