AgentFugue: Escalado de Agentes para Tareas de Largo Plazo mediante Razonamiento Colectivo

Resumen

El progreso reciente en tareas agentivas de horizonte largo ha sido impulsado principalmente por el escalamiento vertical de agentes individuales mediante modelos más potentes, mejores herramientas y andamiajes más efectivos. En contraste, se comprende mucho menos sobre el escalamiento horizontal: si múltiples agentes pares, todos orientados a la misma tarea, pueden convertirse en una fuente adicional de capacidad sin depender de una especialización explícita de roles o de la orquestación de flujos de trabajo. Estudiamos esta cuestión y proponemos AgentFugue, un marco de razonamiento colectivo construido alrededor de un centro de razonamiento compartido. Mientras los agentes pares exploran la misma tarea en paralelo, el centro registra notas concisas sobre lo que cada agente ha establecido, intentado o descartado, y permite que cada agente acceda selectivamente a lo que otros agentes han descubierto en una forma útil para su búsqueda actual. Este diseño transforma trayectorias que de otro modo serían aisladas en una ecología conectada de razonamiento intermedio reutilizable sin requerir una planificación centralizada. Implementamos el centro como una capa de comunicación complementaria, entrenada con ajuste fino supervisado y aprendizaje por refuerzo de extremo a extremo. En los exigentes escenarios de horizonte largo que estudiamos, AgentFugue mejora sobre líneas base sólidas. Nuestros resultados sugieren que el razonamiento colectivo puede convertir el escalamiento horizontal de sistemas de agentes pares en una fuente distintiva de ganancias de capacidad, y no simplemente en una forma de gastar más cómputo.

English

Recent progress on long-horizon agentic tasks has been driven largely by scaling up individual agents through stronger models, better tools, and more effective scaffolding. In contrast, much less is understood about scaling out: whether multiple peer agents, all targeting the same task, can become an additional source of capability without relying on explicit role specialization or workflow orchestration. We study this question and propose AgentFugue, a collective reasoning framework built around a shared reasoning hub. As peer agents explore the same task in parallel, the hub records concise notes on what each agent has established, attempted, or ruled out, and enables each agent to selectively access what other agents have discovered in a form useful for its current search. This design turns otherwise isolated trajectories into a connected ecology of reusable intermediate reasoning without requiring centralized planning. We instantiate the hub as a plug-in communication layer, trained with supervised fine-tuning and end-to-end reinforcement learning. Across the challenging long-horizon settings we study, AgentFugue improves over strong baselines. Our results suggest that collective reasoning can turn scaling out peer agent systems into a distinct source of capability gains, rather than merely a way of spending more compute.