DarkForest : Moins de paroles, une précision accrue pour les LLMs multi-agents

Résumé

Les systèmes multi-agents basés sur des LLM améliorent le raisonnement en combinant les sorties de multiples agents, mais les méthodes fortement interactives peuvent introduire une propagation d'erreurs et une surcharge de communication élevée. Lorsque les agents échangent des réponses brutes ou des traces de raisonnement, un raisonnement intermédiaire incorrect peut être adopté et amplifié, conduisant à un consensus erroné mais exprimé avec confiance ; les communications multi-tours augmentent également la consommation de tokens, la latence et le coût d'inférence. Dans cet article, nous proposons un cadre de coordination à communication contrôlée nommé DarkForest. DarkForest maintient d'abord les agents indépendants, de sorte que chaque agent produise une réponse sans voir les sorties des autres. Il analyse ensuite les réponses brutes en enregistrements candidats structurés, regroupe les candidats sémantiquement équivalents en clusters, et estime une distribution de croyance calibrée sur ces clusters en utilisant la fiabilité des agents, la confiance, la qualité d'analyse, la fiabilité des schémas de support et des corrections d'indépendance. Un coordinateur ne reçoit que les preuves autorisées par la politique issues de cet état de croyance avec une communication contrôlée. Les expériences sur six benchmarks de raisonnement montrent que DarkForest atteint une qualité globale de premier plan, améliore la baseline la plus performante jusqu'à 30,7 % sur les métriques des benchmarks, et réduit la consommation de tokens jusqu'à 6,5 fois par rapport aux baselines fortement communicantes.

English

Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.