ChatPaper.aiChatPaper

DIVE: 一般化可能なツール利用のためのエージェント的タスク合成における多様性のスケーリング

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

March 10, 2026
著者: Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao
cs.AI

要旨

近年、ポストトレーニングによるツール利用LLM向けのエージェント的タスクの合成が進められているが、タスクやツールセットの変化に対する頑健な汎化性能は未解決の課題である。我々はこの脆弱性の原因を、合成タスクの多様性不足に遡る。多様性の拡大は困難を伴う。なぜなら、学習にはタスクが実行可能かつ検証可能であることが求められる一方で、汎化には多様なツールタイプ、ツールセットの組み合わせ、異種のツール利用パターンを含む網羅性が要求されるためである。本論文では、DIVEを提案する。これは証拠駆動型の手法であり、合成の順序を逆転させ、まず多様な実世界のツールを実行し、その結果得られた実行トレースから厳密に導出されるタスクを逆算することで、構成的に接地を提供する。DIVEは、制御可能な二つの軸、すなわちツールプールの網羅性とタスク毎のツールセット多様性に沿って構造的多様性を拡大する。さらに、「証拠収集-タスク導出」ループにより、5分野373のツールにわたる豊富なマルチステップのツール利用パターンを誘導する。DIVEデータ(48k SFT + 3.2k RL)でQwen3-8Bを学習させた結果、9つのOODベンチマークで平均+22ポイント向上し、最強の8Bベースラインを+68ポイント上回った。特筆すべきは、制御されたスケーリング分析により、OOD汎化においては、データ量が4分の1であっても、多様性の拡大が量の拡大を一貫して上回ることが明らかになった点である。
English
Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.
PDF42March 15, 2026