OpenThoughts-Agent: Datarecepten voor Agentische Modellen

Samenvatting

Agentische taalmodellen breiden de toepassingen van AI enorm uit, maar er is weinig publiekelijk bekend over hoe trainingsgegevens te cureren voor breed inzetbare agenten. Bestaande open inspanningen zoals SWE-Smith, SERA en Nemotron-Terminal richten zich doorgaans op een enkele benchmark, waardoor de vraag open blijft hoe modellen te trainen die generaliseren over uiteenlopende agentische taken. Het OpenThoughts-Agent (OT-Agent)-project pakt deze lacune aan met een volledig open datacuratiepijplijn voor het trainen van agentische modellen. We voeren meer dan 100 gecontroleerde ablatie-experimenten uit om systematisch elke fase van de pijplijn te onderzoeken, wat inzichten oplevert over het belang van taakbronnen en diversiteit. Vervolgens stellen we een trainingsset van 100K voorbeelden uit onze pijplijn samen en fijnstellen we Qwen3-32B op deze dataset, wat een gemiddelde nauwkeurigheid van 44,8% oplevert over zeven agentische benchmarks en een verbetering van 3,9 procentpunt ten opzichte van het sterkste bestaande open data-agentische model (Nemotron-Terminal-32B, 40,9%). Bovendien vertonen onze trainingsgegevens sterke schaalbaarheidseigenschappen en presteren ze beter dan alternatieve open datasets bij elke trainingssetgrootte in rekenkracht-gecontroleerde vergelijkingen. We geven onze trainingssets, datapijplijn, experimentele gegevens en modellen vrij op openthoughts.ai om toekomstig open onderzoek naar agentische modeltraining te ondersteunen.

English

Agentic language models dramatically expand the applications of AI yet little is publicly known about how to curate training data for broadly capable agents. Existing open efforts such as SWE-Smith, SERA, and Nemotron-Terminal typically target a single benchmark, leaving open the question of how to train models that generalize across diverse agentic tasks. The OpenThoughts-Agent (OT-Agent) project addresses this gap with a fully open data curation pipeline for training agentic models. We conduct more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline, yielding insights on the importance of task sources and diversity. We then assemble a training set of 100K examples from our pipeline and fine-tune Qwen3-32B on this dataset, which yields an average accuracy of 44.8% across seven agentic benchmarks and a 3.9 percentage point improvement over the strongest existing open data agentic model (Nemotron-Terminal-32B, 40.9%). Moreover, our training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons. We publicly release our training sets, data pipeline, experimental data, and models at openthoughts.ai to support future open research on agentic model training.