DarkForest: Menos conversación, mayor precisión para LLMs multiagente

Resumen

Los sistemas multiagente con LLM mejoran el razonamiento al combinar las salidas de múltiples agentes, pero los métodos intensivos en interacción pueden introducir propagación de errores y una alta sobrecarga de comunicación. Cuando los agentes intercambian respuestas en bruto o trazas de razonamiento, el razonamiento intermedio incorrecto puede ser adoptado y amplificado, generando un consenso seguro pero erróneo; la comunicación de múltiples rondas también incrementa el consumo de tokens, la latencia y el costo de inferencia. En este artículo, proponemos un marco de coordinación con comunicación controlada llamado DarkForest. DarkForest primero mantiene a los agentes independientes, de modo que cada uno produce una respuesta sin ver las salidas de los demás. Luego analiza las respuestas en bruto para convertirlas en registros de candidatos estructurados, agrupa candidatos semánticamente equivalentes en clústeres y estima una distribución de creencias calibrada sobre dichos clústeres utilizando la confiabilidad del agente, la confianza, la calidad del análisis, la confiabilidad del patrón de soporte y correcciones de independencia. Un coordinador recibe únicamente evidencia permitida por la política a partir de este estado de creencias, con comunicación controlada. Los experimentos en seis puntos de referencia de razonamiento muestran que DarkForest logra una calidad general líder, mejora la línea base más fuerte hasta en un 30.7% en las métricas de referencia y reduce el consumo de tokens hasta 6.5 veces en comparación con las líneas base con mucha comunicación.

English

Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to 6.5times compared with communication-heavy baselines.