OpenThoughts-Agent: エージェントモデルのためのデータレシピ
OpenThoughts-Agent: Data Recipes for Agentic Models
June 23, 2026
著者: Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt
cs.AI
要旨
エージェント型言語モデルはAIの応用範囲を劇的に拡大しているが、幅広い能力を持つエージェント向けのトレーニングデータをどのようにキュレーションするかについては、公に知られていることがほとんどない。SWE-Smith、SERA、Nemotron-Terminalのような既存のオープンな取り組みは、通常、単一のベンチマークを対象としており、多様なエージェント型タスクに汎化するモデルを訓練する方法については未解決の課題が残されている。OpenThoughts-Agent (OT-Agent) プロジェクトは、エージェント型モデルを訓練するための完全にオープンなデータキュレーションパイプラインを提供することで、このギャップに対処する。我々は100回以上の制御されたアブレーション実験を実施し、パイプラインの各段階を体系的に調査することで、タスクソースと多様性の重要性に関する知見を得た。そして、このパイプラインから10万件のトレーニングセットを構築し、Qwen3-32Bをこのデータセットでファインチューニングした結果、7つのエージェント型ベンチマークにおいて平均精度44.8%を達成し、既存の最強のオープンデータエージェントモデル(Nemotron-Terminal-32B、40.9%)を3.9ポイント上回った。さらに、我々のトレーニングデータは優れたスケーリング特性を示し、計算リソースを制御した比較において、あらゆるトレーニングセットサイズで他のオープンデータセットを上回る性能を発揮した。トレーニングセット、データパイプライン、実験データ、モデルをopenthoughts.aiで公開し、エージェント型モデル訓練に関する今後のオープンな研究を支援する。
English
Agentic language models dramatically expand the applications of AI yet little is publicly known about how to curate training data for broadly capable agents. Existing open efforts such as SWE-Smith, SERA, and Nemotron-Terminal typically target a single benchmark, leaving open the question of how to train models that generalize across diverse agentic tasks. The OpenThoughts-Agent (OT-Agent) project addresses this gap with a fully open data curation pipeline for training agentic models. We conduct more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline, yielding insights on the importance of task sources and diversity. We then assemble a training set of 100K examples from our pipeline and fine-tune Qwen3-32B on this dataset, which yields an average accuracy of 44.8% across seven agentic benchmarks and a 3.9 percentage point improvement over the strongest existing open data agentic model (Nemotron-Terminal-32B, 40.9%). Moreover, our training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons. We publicly release our training sets, data pipeline, experimental data, and models at openthoughts.ai to support future open research on agentic model training.