SearchSwarm: Naar delegatie-intelligentie in agentische LLM's voor langetermijn diepgaand onderzoek

Samenvatting

Grote taalmodellen worden steeds vaker verwacht complexe, langdurige realistische taken uit te voeren waarvan de contextvereisten onbegrensd kunnen groeien, terwijl modelcontextvensters inherent eindig blijven. Recent onderzoek verkent een paradigma waarin een hoofdagentschap taken ontleedt en deeltaken naar subagenten stuurt, die deze uitvoeren en alleen samengevatte resultaten teruggeven, waardoor het contextbudget van de hoofdagentschap wordt gespaard. Echter, het goed uitvoeren hiervan vereist delegatie-intelligentie: het vermogen om complexe taken te ontleden, te bepalen wanneer en wat er gedelegeerd moet worden, en teruggekeerde resultaten te integreren in de lopende workflow. Trainingsgegevens voor deze capaciteit zijn schaars in natuurlijk voorkomende tekst, en voor zover wij weten is hoe dergelijke gegevens te synthetiseren en modellen te trainen om deze capaciteit te verwerven grotendeels onontgonnen in de open-sourcegemeenschap. Om deze kloof te overbruggen, presenteren wij een voorlopige verkenning gericht op diepgaand onderzoek, een representatieve langdurige agenttaak. Concreet ontwerpen wij een harnas dat het model begeleidt naar hoogwaardige taakontleding en delegatie, terwijl subagenten worden beperkt om resultaten correct terug te geven ter ondersteuning van de workflow van de hoofdagentschap. De harnas-gestuurde trajecten coderen op natuurlijke wijze correcte delegatiebeslissingen, die wij gebruiken als gesuperviseerde fijnafstemmingsgegevens om delegatie-intelligentie te internaliseren in modelgewichten. Ons resulterende model, SearchSwarm-30B-A3B, behaalt 68,1 op BrowseComp en 73,3 op BrowseComp-ZH, de beste resultaten van alle modellen van vergelijkbare omvang. Wij zullen ons harnas, modelgewichten en trainingsgegevens vrijgeven om toekomstig onderzoek te faciliteren.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.