ChatPaper.aiChatPaper

DIVE: 일반화 가능한 도구 사용을 위한 행위 기반 작업 합성의 다양성 확장

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

March 10, 2026
저자: Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao
cs.AI

초록

최근 연구에서는 사후 훈련된 도구 활용 LLM을 위한 에이전트 작업을 합성하고 있지만, 작업 및 도구 세트 변화 하에서의 강건한 일반화는 여전히 해결 과제로 남아 있습니다. 우리는 이러한 취약성이 합성된 작업의 다양성 부족에서 비롯된다고 분석합니다. 다양성 확장은 훈련 시 작업의 실행 가능성과 검증 가능성을 유지해야 하는 반면, 일반화는 다양한 도구 유형, 도구 세트 조합, 이질적인 도구 사용 패턴을 포괄해야 하므로 어려운 과제입니다. 우리는 DIVE를 제안하는데, 이는 증거 기반 방법론으로 합성 순서를 역전시켜 먼저 다양한 실제 도구를 실행하고 결과 트레이스에서 엄격하게 도출된 작업을 역산성함으로써 구성적으로 근거를 제공합니다. DIVE는 두 가지 제어 가능한 축인 도구 풀 커버리지와 작업별 도구 세트 다양성을 통해 구조적 다양성을 확장하며, 증거 수집-작업 도출 루프는 5개 도메인의 373개 도구에 걸쳐 풍부한 다단계 도구 사용 패턴을 추가로 유도합니다. DIVE 데이터(48k SFT + 3.2k RL)로 Qwen3-8B을 훈련한 결과, 9개의 OOD 벤치마크에서 평균 +22점 향상되었으며 가장 강력한 8B 기준 모델을 +68점 차이로 능가했습니다. 특히 제어된 확장 분석에 따르면, 데이터 양이 4분의 1에 불과하더라도 OOD 일반화를 위한 다양성 확장이 양적 확장보다 지속적으로 더 우수한 성능을 보였습니다.
English
Recent work synthesizes agentic tasks for post-training tool-using LLMs, yet robust generalization under shifts in tasks and toolsets remains an open challenge. We trace this brittleness to insufficient diversity in synthesized tasks. Scaling diversity is difficult because training requires tasks to remain executable and verifiable, while generalization demands coverage of diverse tool types, toolset combinations, and heterogeneous tool-use patterns. We propose DIVE, an evidence-driven recipe that inverts synthesis order, executing diverse, real-world tools first and reverse-deriving tasks strictly entailed by the resulting traces, thereby providing grounding by construction. DIVE scales structural diversity along two controllable axes, tool-pool coverage and per-task toolset variety, and an Evidence Collection--Task Derivation loop further induces rich multi-step tool-use patterns across 373 tools in five domains. Training Qwen3-8B on DIVE data (48k SFT + 3.2k RL) improves by +22 average points across 9 OOD benchmarks and outperforms the strongest 8B baseline by +68. Remarkably, controlled scaling analysis reveals that diversity scaling consistently outperforms quantity scaling for OOD generalization, even with 4x less data.
PDF42March 15, 2026