SearchSwarm: Hacia la Inteligencia de Delegación en LLMs Agentivos para Investigación Profunda a Largo Plazo

Resumen

Los modelos de lenguaje de gran escala están cada vez más llamados a manejar tareas complejas y de horizonte largo en el mundo real, cuyas demandas de contexto pueden crecer sin límite, aunque las ventanas de contexto de los modelos siguen siendo inherentemente finitas. Trabajos recientes exploran un paradigma donde un agente principal descompone tareas y asigna subtareas a subagentes, quienes las ejecutan y devuelven únicamente resultados resumidos, conservando así el presupuesto de contexto del agente principal. Sin embargo, realizar esto de forma adecuada requiere inteligencia de delegación: la capacidad de descomponer tareas complejas, determinar cuándo y qué delegar, e integrar los resultados devueltos en el flujo de trabajo en curso. Los datos de entrenamiento para esta capacidad escasean en el texto natural existente y, hasta donde sabemos, cómo sintetizar dichos datos y entrenar modelos para adquirir esta capacidad permanece en gran medida inexplorado en la comunidad de código abierto. Para cerrar esta brecha, presentamos una exploración preliminar centrada en la investigación profunda, una tarea de agente representativa de horizonte largo. En concreto, diseñamos una herramienta de guía que orienta al modelo hacia una descomposición y delegación de tareas de alta calidad, al tiempo que restringe a los subagentes a devolver resultados adecuadamente para respaldar el flujo de trabajo del agente principal. Las trayectorias guiadas por esta herramienta codifican de manera natural decisiones de delegación correctas, las cuales utilizamos como datos de ajuste fino supervisado para internalizar la inteligencia de delegación en los pesos del modelo. Nuestro modelo resultante, SearchSwarm-30B-A3B, alcanza 68,1 en BrowseComp y 73,3 en BrowseComp-ZH, los mejores resultados entre todos los modelos de escala comparable. Publicaremos nuestra herramienta de guía, los pesos del modelo y los datos de entrenamiento para facilitar futuras investigaciones.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.