OpenThoughts-Agent: 에이전트 모델을 위한 데이터 레시피
OpenThoughts-Agent: Data Recipes for Agentic Models
June 23, 2026
저자: Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt
cs.AI
초록
에이전틱 언어 모델은 AI의 응용 분야를 획기적으로 확장하지만, 광범위한 능력을 갖춘 에이전트를 위한 훈련 데이터를 어떻게 큐레이션해야 하는지에 대해서는 공개적으로 알려진 바가 거의 없다. SWE-Smith, SERA, Nemotron-Terminal과 같은 기존의 공개 프로젝트들은 주로 단일 벤치마크를 대상으로 하여, 다양한 에이전틱 작업에 걸쳐 일반화되는 모델을 훈련하는 방법에 대한 질문은 여전히 열려 있다. OpenThoughts-Agent(OT-Agent) 프로젝트는 에이전틱 모델 훈련을 위한 완전히 공개된 데이터 큐레이션 파이프라인을 제공함으로써 이러한 격차를 해소한다. 우리는 100회 이상의 통제된 절제 실험을 수행하여 파이프라인의 각 단계를 체계적으로 조사했으며, 작업 소스와 다양성의 중요성에 대한 통찰을 얻었다. 이후 우리는 파이프라인에서 100K개의 예시로 구성된 훈련 세트를 구축하고 이 데이터셋으로 Qwen3-32B를 미세 조정하여, 7개의 에이전틱 벤치마크에서 평균 정확도 44.8%를 달성했으며, 이는 기존 최고의 공개 데이터 에이전트 모델(Nemotron-Terminal-32B, 40.9%) 대비 3.9%포인트 향상된 수치이다. 또한 우리의 훈련 데이터는 강력한 확장 특성을 보여주며, 모든 훈련 세트 크기에서 계산 자원 제어 비교 시 대체 공개 데이터셋보다 뛰어난 성능을 보인다. 우리는 훈련 세트, 데이터 파이프라인, 실험 데이터 및 모델을 openthoughts.ai에 공개하여 향후 에이전틱 모델 훈련에 대한 공개 연구를 지원하고자 한다.
English
Agentic language models dramatically expand the applications of AI yet little is publicly known about how to curate training data for broadly capable agents. Existing open efforts such as SWE-Smith, SERA, and Nemotron-Terminal typically target a single benchmark, leaving open the question of how to train models that generalize across diverse agentic tasks. The OpenThoughts-Agent (OT-Agent) project addresses this gap with a fully open data curation pipeline for training agentic models. We conduct more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline, yielding insights on the importance of task sources and diversity. We then assemble a training set of 100K examples from our pipeline and fine-tune Qwen3-32B on this dataset, which yields an average accuracy of 44.8% across seven agentic benchmarks and a 3.9 percentage point improvement over the strongest existing open data agentic model (Nemotron-Terminal-32B, 40.9%). Moreover, our training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons. We publicly release our training sets, data pipeline, experimental data, and models at openthoughts.ai to support future open research on agentic model training.