SearchSwarm: Rumo à Inteligência de Delegação em LLMs Agentivos para Pesquisa Profunda de Longo Horizonte

Resumo

Modelos de linguagem de grande escala são cada vez mais esperados para lidar com tarefas complexas e de longo horizonte no mundo real, cuja demanda de contexto pode crescer sem limites, embora as janelas de contexto dos modelos permaneçam inerentemente finitas. Trabalhos recentes exploram um paradigma no qual um agente principal decompõe tarefas e delega subtarefas a subagentes, que as executam e retornam apenas resultados resumidos, poupando o orçamento de contexto do agente principal. No entanto, realizar isso com sucesso exige inteligência de delegação: a capacidade de decompor tarefas complexas, determinar quando e o que delegar, e integrar os resultados retornados ao fluxo de trabalho contínuo. Dados de treinamento para essa capacidade são escassos em textos naturalmente ocorrentes e, até onde sabemos, como sintetizar tais dados e treinar modelos para adquirir essa capacidade permanece amplamente inexplorado na comunidade de código aberto. Para preencher essa lacuna, apresentamos uma exploração preliminar voltada para pesquisa profunda, uma tarefa de agente de longo horizonte representativa. Especificamente, projetamos um arcabouço que guia o modelo em direção a decomposição e delegação de tarefas de alta qualidade, ao mesmo tempo que restringe os subagentes a retornar resultados adequadamente para apoiar o fluxo de trabalho do agente principal. As trajetórias guiadas pelo arcabouço codificam naturalmente decisões corretas de delegação, que usamos como dados de ajuste fino supervisionado para internalizar a inteligência de delegação nos pesos do modelo. Nosso modelo resultante, SearchSwarm-30B-A3B, alcança 68,1 no BrowseComp e 73,3 no BrowseComp-ZH, os melhores resultados entre todos os modelos de escala comparável. Disponibilizaremos nosso arcabouço, pesos do modelo e dados de treinamento para facilitar pesquisas futuras.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.