SearchSwarm: к интеллекту делегирования в агентных LLM для долгосрочных глубоких исследований

Аннотация

Ожидается, что большие языковые модели все чаще будут справляться со сложными, долгосрочными реальными задачами, контекстные требования которых могут расти без ограничений, однако контекстные окна моделей остаются по своей природе конечными. Недавние работы исследуют парадигму, в которой главный агент разбивает задачи и распределяет подзадачи между подчиненными агентами, которые выполняют их и возвращают только обобщенные результаты, экономя контекстный бюджет главного агента. Однако для эффективного выполнения этого требуется интеллект делегирования: способность разбивать сложные задачи, определять, когда и что делегировать, и интегрировать возвращенные результаты в текущий рабочий процесс. Обучающие данные для этой способности редко встречаются в естественных текстах, и, насколько нам известно, вопрос синтеза таких данных и обучения моделей для приобретения этой способности остается в значительной степени неисследованным в сообществе открытого исходного кода. Чтобы восполнить этот пробел, мы представляем предварительное исследование, нацеленное на глубокое исследование (deep research) — репрезентативную долгосрочную задачу для агента. В частности, мы разрабатываем обвязку, которая направляет модель на высококачественное разбиение задач и делегирование, при этом ограничивая подчиненных агентов таким образом, чтобы они правильно возвращали результаты для поддержки рабочего процесса главного агента. Траектории, направляемые обвязкой, естественным образом кодируют правильные решения о делегировании, которые мы используем в качестве данных для контролируемой тонкой настройки, чтобы интернализировать интеллект делегирования в веса модели. Наша итоговая модель SearchSwarm-30B-A3B достигает 68,1 балла на BrowseComp и 73,3 балла на BrowseComp-ZH, что является лучшими результатами среди всех моделей сопоставимого масштаба. Мы опубликуем нашу обвязку, веса модели и обучающие данные для содействия будущим исследованиям.

English

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.