DIVE: Escalando la Diversidad en la Síntesis de Tareas Agénticas para el Uso Generalizable de Herramientas
DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use
March 10, 2026
Autores: Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao
cs.AI
Resumen
Trabajos recientes sintetizan tareas agentivas para LLMs post-entrenados en el uso de herramientas, pero la generalización robusta bajo cambios en las tareas y conjuntos de herramientas sigue siendo un desafío abierto. Atribuimos esta fragilidad a una diversidad insuficiente en las tareas sintetizadas. Escalar la diversidad es difícil porque el entrenamiento requiere que las tareas sigan siendo ejecutables y verificables, mientras que la generalización exige cobertura de diversos tipos de herramientas, combinaciones de conjuntos y patrones heterogéneos de uso. Proponemos DIVE, una metodología basada en evidencia que invierte el orden de síntesis: primero ejecuta herramientas reales diversas y deriva inversamente las tareas estrictamente implicadas por los trazos resultantes, proporcionando así una base por construcción. DIVE escala la diversidad estructural a lo largo de dos ejes controlables: la cobertura del conjunto de herramientas y la variedad de herramientas por tarea. Un bucle de Colección de Evidencia-Derivación de Tareas induce además patrones ricos de uso multi-paso a través de 373 herramientas en cinco dominios. Entrenar Qwen3-8B con datos de DIVE (48k SFT + 3.2k RL) mejora +22 puntos de media en 9 benchmarks fuera de distribución (OOD) y supera al baseline de 8B más fuerte por +68. Notablemente, un análisis de escalado controlado revela que escalar la diversidad supera consistentemente a escalar la cantidad para la generalización OOD, incluso con 4 veces menos datos.
English
Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.