SearchSwarm : Vers une intelligence de délégation dans les LLMs agentiques pour la recherche approfondie à long horizon

Résumé

Les grands modèles de langage sont de plus en plus amenés à traiter des tâches complexes et à long horizon dans le monde réel, dont les exigences contextuelles peuvent croître sans limite, alors que les fenêtres de contexte des modèles restent intrinsèquement finies. Des travaux récents explorent un paradigme dans lequel un agent principal décompose les tâches et délègue des sous-tâches à des sous-agents, qui exécutent et renvoient uniquement des résultats résumés, préservant ainsi le budget de contexte de l'agent principal. Cependant, une bonne mise en œuvre de cette approche nécessite une intelligence de délégation : la capacité à décomposer des tâches complexes, à déterminer quand et quoi déléguer, et à intégrer les résultats renvoyés dans le flux de travail en cours. Les données d'entraînement pour cette capacité sont rares dans les textes naturels, et à notre connaissance, la manière de synthétiser ces données et d'entraîner les modèles à acquérir cette capacité reste largement inexplorée dans la communauté open-source. Pour combler cette lacune, nous présentons une exploration préliminaire ciblant la recherche approfondie, une tâche d'agent à long horizon représentative. Plus précisément, nous concevons un harnais qui guide le modèle vers une décomposition et une délégation de tâches de haute qualité, tout en contraignant les sous-agents à renvoyer des résultats correctement adaptés pour soutenir le flux de travail de l'agent principal. Les trajectoires guidées par le harnais encodent naturellement des décisions de délégation correctes, que nous utilisons comme données de fine-tuning supervisé pour internaliser l'intelligence de délégation dans les poids du modèle. Notre modèle résultant, SearchSwarm-30B-A3B, atteint 68,1 sur BrowseComp et 73,3 sur BrowseComp-ZH, les meilleurs résultats parmi tous les modèles de taille comparable. Nous publierons notre harnais, les poids du modèle et les données d'entraînement pour faciliter les recherches futures.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.