DIVE: Масштабирование разнообразия в синтезе агентных задач для обобщенного использования инструментов

Аннотация

Недавние исследования синтезируют агентные задачи для посттренинговых LLM, использующих инструменты, однако устойчивая обобщающая способность при сдвигах в задачах и наборах инструментов остается открытой проблемой. Мы связываем эту хрупкость с недостаточным разнообразием синтезированных задач. Масштабирование разнообразия затруднено, поскольку обучение требует, чтобы задачи оставались исполняемыми и проверяемыми, в то время как обобщение требует охвата различных типов инструментов, комбинаций их наборов и гетерогенных паттернов их использования. Мы предлагаем DIVE, основанный на данных рецепт, который инвертирует порядок синтеза: сначала исполняются разнообразные инструменты из реального мира, а затем обратно выводятся задачи, строго следующие из результирующих трасс, обеспечивая тем самым обоснованность по построению. DIVE масштабирует структурное разнообразие по двум контролируемым осям — охвату пула инструментов и вариативности набора инструментов на задачу, а цикл «Сбор данных — Вывод задач» дополнительно индуцирует богатые многошаговые паттерны использования инструментов для 373 инструментов в пяти доменах. Обучение Qwen3-8B на данных DIVE (48к SFT + 3.2к RL) улучшает средний результат на +22 пункта по 9 OOD-бенчмаркам и превосходит сильнейшую 8B-базовую модель на +68. Примечательно, что контролируемый анализ масштабирования показывает, что масштабирование разнообразия последовательно превосходит масштабирование количества данных для OOD-обобщения, даже при использовании в 4 раза меньшего объема данных.

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE: Масштабирование разнообразия в синтезе агентных задач для обобщенного использования инструментов

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Аннотация

Support