DIVE: Escalonando a Diversidade na Síntese de Tarefas Agênticas para Uso Generalizado de Ferramentas

Resumo

Trabalhos recentes sintetizam tarefas agentes para LLMs pós-treinados no uso de ferramentas, no entanto, a generalização robusta sob variações em tarefas e conjuntos de ferramentas permanece um desafio em aberto. Nós rastreamos essa fragilidade até a diversidade insuficiente nas tarefas sintetizadas. Escalar a diversidade é difícil porque o treinamento exige que as tarefas permaneçam executáveis e verificáveis, enquanto a generalização demanda a cobertura de diversos tipos de ferramentas, combinações de conjuntos de ferramentas e padrões heterogêneos de uso de ferramentas. Propomos o DIVE, uma receita baseada em evidências que inverte a ordem da síntese, executando primeiro ferramentas diversas do mundo real e derivando reversamente tarefas estritamente implicadas pelos rastros resultantes, fornecendo assim fundamentação por construção. O DIVE escala a diversidade estrutural ao longo de dois eixos controláveis, a cobertura do conjunto de ferramentas e a variedade de conjuntos de ferramentas por tarefa, e um ciclo de Coleção de Evidências–Derivação de Tarefas induz ainda mais padrões ricos de uso de ferramentas em múltiplos passos em 373 ferramentas de cinco domínios. O treinamento do Qwen3-8B com dados do DIVE (48k SFT + 3.2k RL) melhora em +22 pontos médios em 9 benchmarks OOD e supera a linha de base mais forte de 8B em +68. Notavelmente, uma análise controlada de escalonamento revela que o escalonamento da diversidade supera consistentemente o escalonamento de quantidade para generalização OOD, mesmo com 4x menos dados.

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE: Escalonando a Diversidade na Síntese de Tarefas Agênticas para Uso Generalizado de Ferramentas

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Resumo

Support