DIVE: Scalabilità della Diversità nella Sintesi di Compiti Agenti per l'Utilizzo Generalizzato di Strumenti

Abstract

I lavori recenti sintetizzano task agentici per LLM post-addestrati all'uso di strumenti, ma una generalizzazione robusta in caso di variazioni nei task e nei set di strumenti rimane una sfida aperta. Riconduciamo questa fragilità a un'insufficiente diversità nei task sintetizzati. Scalare la diversità è difficile perché l'addestramento richiede che i task rimangano eseguibili e verificabili, mentre la generalizzazione richiede la copertura di tipi di strumenti diversi, combinazioni di set di strumenti e pattern eterogenei di utilizzo degli strumenti. Proponiamo DIVE, una metodologia evidence-driven che inverte l'ordine di sintesi: esegue prima strumenti reali e diversificati e deriva inversamente i task strettamente implicati dalle tracce risultanti, fornendo così un grounding per costruzione. DIVE scala la diversità strutturale lungo due assi controllabili, la copertura del pool di strumenti e la varietà del set di strumenti per task, e un ciclo Raccolta di Evidenze-Derivazione dei Task induce ulteriormente ricchi pattern di utilizzo multi-step degli strumenti su 373 strumenti in cinque domini. L'addestramento di Qwen3-8B sui dati DIVE (48k SFT + 3.2k RL) migliora di +22 punti in media su 9 benchmark OOD e supera il baseline più forte per modelli da 8B di +68 punti. Notevolmente, un'analisi controllata di scaling rivela che lo scaling della diversità supera costantemente lo scaling della quantità per la generalizzazione OOD, anche con 4 volte meno dati.

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE: Scalabilità della Diversità nella Sintesi di Compiti Agenti per l'Utilizzo Generalizzato di Strumenti

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Abstract

Support