DarkForest: Menos Conversa, Maior Precisão para LLMs Multiagente

Resumo

Sistemas multiagente com LLMs melhoram o raciocínio ao combinar saídas de múltiplos agentes, mas métodos com alta interação podem introduzir propagação de erros e grande sobrecarga de comunicação. Quando os agentes trocam respostas brutas ou traços de raciocínio, raciocínios intermediários incorretos podem ser adotados e amplificados, levando a um consenso confiante, mas errado; a comunicação em múltiplas rodadas também aumenta o consumo de tokens, a latência e o custo de inferência. Neste artigo, propomos um arcabouço de coordenação com comunicação controlada chamado DarkForest. O DarkForest primeiro mantém os agentes independentes, de modo que cada agente produza uma resposta sem ver as saídas dos outros. Em seguida, ele analisa as respostas brutas em registros de candidatos estruturados, agrupa candidatos semanticamente equivalentes em clusters e estima uma distribuição de crenças calibrada sobre esses clusters usando confiabilidade do agente, confiança, qualidade da análise, confiabilidade do padrão de suporte e correções de independência. Um coordenador recebe apenas evidências permitidas pela política desse estado de crença, com comunicação controlada. Experimentos em seis referências de raciocínio mostram que o DarkForest alcança qualidade global líder, melhora a melhor linha de base em até 30,7% nas métricas de referência e reduz o consumo de tokens em até 6,5 vezes em comparação com linhas de base com alta comunicação.

English

Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.