DarkForest: Меньше разговоров, выше точность для многоагентных LLM

Аннотация

Мультиагентные системы на основе больших языковых моделей (LLM) улучшают рассуждения за счет объединения выходных данных нескольких агентов, однако методы с интенсивным взаимодействием могут приводить к распространению ошибок и высоким накладным расходам на коммуникацию. Когда агенты обмениваются необработанными ответами или трассами рассуждений, неверные промежуточные умозаключения могут быть приняты и усилены, что приводит к уверенному, но ошибочному консенсусу; многораундовая коммуникация также увеличивает потребление токенов, задержку и стоимость инференса. В данной статье мы предлагаем фреймворк координации с контролируемой коммуникацией под названием DarkForest. DarkForest сначала сохраняет независимость агентов, так что каждый агент формирует ответ, не видя результатов других. Затем он разбирает необработанные ответы в структурированные записи кандидатов, группирует семантически эквивалентные кандидаты в кластеры и оценивает калиброванное распределение убеждений по этим кластерам, используя надежность агентов, уверенность, качество разбора, надежность паттернов поддержки и коррекции независимости. Координатор получает только разрешенные политикой свидетельства из этого состояния убеждений с контролируемой коммуникацией. Эксперименты на шести бенчмарках рассуждений показывают, что DarkForest достигает ведущего общего качества, улучшает сильнейший базовый метод до 30,7% по метрикам бенчмарка и сокращает потребление токенов до 6,5 раз по сравнению с базовыми методами с интенсивной коммуникацией.

English

Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.