AgentFugue: Escalonamento de Agentes para Tarefas de Longo Horizonte através de Raciocínio Coletivo

Resumo

O progresso recente em tarefas agentivas de longo horizonte tem sido impulsionado principalmente pelo escalonamento vertical de agentes individuais, por meio de modelos mais robustos, melhores ferramentas e arcabouços mais eficazes. Em contraste, compreende-se muito menos sobre o escalonamento horizontal: se múltiplos agentes pares, todos direcionados à mesma tarefa, podem se tornar uma fonte adicional de capacidade sem depender de especialização explícita de papéis ou orquestração de fluxo de trabalho. Estudamos essa questão e propomos o AgentFugue, uma estrutura de raciocínio coletivo construída em torno de um hub de raciocínio compartilhado. Enquanto agentes pares exploram a mesma tarefa em paralelo, o hub registra notas concisas sobre o que cada agente estabeleceu, tentou ou descartou, e permite que cada agente acesse seletivamente o que outros agentes descobriram, de uma forma útil para sua busca atual. Esse design transforma trajetórias antes isoladas em uma ecologia conectada de raciocínio intermediário reutilizável, sem exigir planejamento centralizado. Implementamos o hub como uma camada de comunicação plug-in, treinada com ajuste fino supervisionado e aprendizado por reforço de ponta a ponta. Nos desafiadores cenários de longo horizonte que estudamos, o AgentFugue melhora em relação a linhas de base robustas. Nossos resultados sugerem que o raciocínio coletivo pode transformar o escalonamento horizontal de sistemas de agentes pares em uma fonte distinta de ganhos de capacidade, em vez de meramente uma forma de gastar mais poder computacional.

English

Recent progress on long-horizon agentic tasks has been driven largely by scaling up individual agents through stronger models, better tools, and more effective scaffolding. In contrast, much less is understood about scaling out: whether multiple peer agents, all targeting the same task, can become an additional source of capability without relying on explicit role specialization or workflow orchestration. We study this question and propose AgentFugue, a collective reasoning framework built around a shared reasoning hub. As peer agents explore the same task in parallel, the hub records concise notes on what each agent has established, attempted, or ruled out, and enables each agent to selectively access what other agents have discovered in a form useful for its current search. This design turns otherwise isolated trajectories into a connected ecology of reusable intermediate reasoning without requiring centralized planning. We instantiate the hub as a plug-in communication layer, trained with supervised fine-tuning and end-to-end reinforcement learning. Across the challenging long-horizon settings we study, AgentFugue improves over strong baselines. Our results suggest that collective reasoning can turn scaling out peer agent systems into a distinct source of capability gains, rather than merely a way of spending more compute.