SearchSwarm: Auf dem Weg zur Delegationsintelligenz in agentischen LLMs für langfristige tiefgehende Forschung

Zusammenfassung

Von großen Sprachmodellen wird zunehmend erwartet, dass sie komplexe, langfristige reale Aufgaben bewältigen, deren Kontextanforderungen unbegrenzt wachsen können, während die Kontextfenster der Modelle inhärent begrenzt bleiben. Aktuelle Arbeiten untersuchen ein Paradigma, bei dem ein Hauptagent Aufgaben zerlegt und Teilaufgaben an Unteragenten delegiert, die diese ausführen und nur zusammengefasste Ergebnisse zurückgeben, wodurch das Kontextbudget des Hauptagenten geschont wird. Um dies jedoch gut zu bewerkstelligen, ist Delegationsintelligenz erforderlich: die Fähigkeit, komplexe Aufgaben zu zerlegen, zu bestimmen, wann und was delegiert werden soll, und zurückgegebene Ergebnisse in den laufenden Arbeitsablauf zu integrieren. Trainingsdaten für diese Fähigkeit sind in natürlich vorkommenden Texten rar, und unseres Wissens nach ist die Synthese solcher Daten und das Trainieren von Modellen zum Erwerb dieser Fähigkeit in der Open-Source-Community weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir eine vorläufige Untersuchung vor, die auf tiefgehende Recherche abzielt, eine repräsentative langfristige Agentenaufgabe. Insbesondere entwerfen wir eine Steuerung, die das Modell zu einer hochwertigen Aufgabenzerlegung und -delegation führt, während die Unteragenten dazu angehalten werden, Ergebnisse ordnungsgemäß zurückzugeben, um den Arbeitsablauf des Hauptagenten zu unterstützen. Die durch die Steuerung geführten Trajektorien kodieren auf natürliche Weise korrekte Delegationsentscheidungen, die wir als überwachte Feinabstimmungsdaten verwenden, um Delegationsintelligenz in die Modellgewichte zu verinnerlichen. Unser resultierendes Modell SearchSwarm-30B-A3B erreicht 68,1 auf BrowseComp und 73,3 auf BrowseComp-ZH, die besten Ergebnisse aller Modelle vergleichbarer Größe. Wir werden unsere Steuerung, Modellgewichte und Trainingsdaten veröffentlichen, um zukünftige Forschung zu ermöglichen.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.