DIVE : Augmenter la diversité dans la synthèse de tâches agentiques pour une utilisation généralisée des outils

Résumé

Les travaux récents synthétisent des tâches agentiques pour l'utilisation d'outils par les LLM après entraînement, mais la robustesse de la généralisation face aux variations des tâches et des ensembles d'outils reste un défi non résolu. Nous attribuons cette fragilité à une diversité insuffisante dans les tâches synthétisées. Augmenter la diversité est difficile car l'entraînement exige que les tâches restent exécutables et vérifiables, tandis que la généralisation nécessite une couverture de types d'outils variés, de combinaisons d'ensembles d'outils et de patterns hétérogènes d'utilisation des outils. Nous proposons DIVE, une méthode fondée sur des preuves qui inverse l'ordre de synthèse : elle exécute d'abord des outils réels diversifiés, puis dérive de manière inverse les tâches strictement impliquées par les traces résultantes, fournissant ainsi un ancrage par construction. DIVE fait évoluer la diversité structurelle selon deux axes contrôlables : la couverture du pool d'outils et la variété des ensembles d'outils par tâche. Une boucle Collection de Preuves–Dérivation de Tâches induit en outre de riches patterns d'utilisation d'outils multi-étapes couvrant 373 outils dans cinq domaines. L'entraînement de Qwen3-8B sur les données DIVE (48k SFT + 3.2k RL) améliore les performances de +22 points en moyenne sur 9 benchmarks hors distribution (OOD) et surpasse de +68 points le plus performant des modèles de référence de 8B. Fait remarquable, une analyse contrôlée de l'échelle révèle que l'augmentation de la diversité surpasse constamment l'augmentation de la quantité de données pour la généralisation OOD, et ce même avec 4 fois moins de données.

English

Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.

DIVE : Augmenter la diversité dans la synthèse de tâches agentiques pour une utilisation généralisée des outils

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Résumé

Support