DarkForest: Minder communicatie, hogere nauwkeurigheid voor multi-agent LLM's

Samenvatting

Multi-agent LLM-systemen verbeteren het redeneren door outputs van meerdere agents te combineren, maar interactie-intensieve methoden kunnen foutenvoortplanting en hoge communicatieoverhead introduceren. Wanneer agents ruwe antwoorden of redeneertraces uitwisselen, kan incorrect tussenredeneren worden overgenomen en versterkt, wat leidt tot een zelfverzekerde maar verkeerde consensus; meerrondecommunicatie verhoogt ook het tokenverbruik, de latentie en de inferentiekosten. In dit artikel stellen we een coördinatieraamwerk met gecontroleerde communicatie voor, genaamd DarkForest. DarkForest houdt agents eerst onafhankelijk, zodat elke agent een antwoord produceert zonder de outputs van de anderen te zien. Vervolgens worden de ruwe antwoorden geparseerd tot gestructureerde kandidaatrecords, semantisch equivalente kandidaten gegroepeerd in clusters, en wordt een gekalibreerde geloofsverdeling over deze clusters geschat met behulp van agentbetrouwbaarheid, vertrouwen, parsingskwaliteit, betrouwbaarheid van ondersteuningspatronen en onafhankelijkheidscorrecties. Een coördinator ontvangt alleen beleidsmatig toegestaan bewijs uit deze geloofstoestand met gecontroleerde communicatie. Experimenten op zes redeneerbenchmarks tonen aan dat DarkForest leidende algehele kwaliteit behaalt, de sterkste baseline met tot 30,7% verbetert op benchmarkmetingen, en het tokenverbruik tot 6,5 keer vermindert in vergelijking met communicatie-intensieve baselines.

English

Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.