DIVE: Schaalvergroting van Diversiteit in Agent-gebaseerde Taaksynthese voor Generaliseerbaar Gereedschapsgebruik

Samenvatting

Recent werk synthetiseert agent-gebaseerde taken voor getrainde toolgebruikende LLM's, maar robuuste generalisatie onder veranderingen in taken en toolsettes blijft een open uitdaging. Wij herleiden deze broosheid tot onvoldoende diversiteit in gesynthetiseerde taken. Het opschalen van diversiteit is moeilijk omdat training vereist dat taken uitvoerbaar en verifieerbaar blijven, terwijl generalisatie dekking vereist van diverse tooltypen, toolset-combinaties en heterogene toolgebruikspatronen. Wij stellen DIVE voor, een op bewijs gebaseerde aanpak die de synthesevolgorde omkeert: eerst worden diverse, real-world tools uitgevoerd, waarna taken worden afgeleid die strikt volgen uit de resulterende traces, waardoor ze van constructie gegrond zijn. DIVE schaalt structurele diversiteit langs twee beheerbare assen: toolpool-dekking en per-taak toolset-variatie, en een Evidence Collection–Task Derivation-lus induceert verder rijke multi-step toolgebruikspatronen over 373 tools in vijf domeinen. Het trainen van Qwen3-8B op DIVE-data (48k SFT + 3.2k RL) verbetert met gemiddeld +22 punten over 9 OOD-benchmarks en overtreft de sterkste 8B-baseline met +68. Opmerkelijk is dat gecontroleerde schaalanalyse aantoont dat diversiteitsscha

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE: Schaalvergroting van Diversiteit in Agent-gebaseerde Taaksynthese voor Generaliseerbaar Gereedschapsgebruik

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Samenvatting

Support