Schalen van Algemene Data-Analytische Agents
Scaling Generalist Data-Analytic Agents
September 29, 2025
Auteurs: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Samenvatting
Data-analytische agents komen naar voren als een belangrijke katalysator voor geautomatiseerde wetenschappelijke ontdekking en voor de visie van Innovating AI. Huidige benaderingen vertrouwen echter sterk op prompt engineering over propriëtaire modellen, terwijl open-source modellen moeite hebben om om te gaan met diverse-formaat, grootschalige gegevensbestanden en langetermijn, meerstaps redenering die real-world analytics vereist. Dit artikel introduceert DataMind, een schaalbare gegevenssynthese en agent-trainingsmethode ontworpen om generalistische data-analytische agents te bouwen. DataMind adresseert drie belangrijke uitdagingen bij het bouwen van open-source data-analytische agents, waaronder onvoldoende gegevensbronnen, onjuiste trainingsstrategie en onstabiele code-gebaseerde meerronduitvoering. Concreet past DataMind 1) een fijnmazige taaktaxonomie en een recursieve makkelijk-naar-moeilijk taaksamenstellingsmechanisme toe om de diversiteit en moeilijkheidsgraad van gesynthetiseerde queries te vergroten; 2) een kennis-augmented trajectbemonsteringsstrategie gevolgd door modelgebaseerde en regelgebaseerde filtering; 3) een dynamisch aanpasbaar trainingsdoel dat zowel SFT- als RL-verliezen combineert; 4) een geheugenzuinig en stabiel code-gebaseerd meerronduitvoeringsframework. Gebaseerd op DataMind, hebben we DataMind-12K samengesteld, een hoogwaardige trajectset die diverse domeinen, taakcategorieën en gegevensbestandsformats omvat voor data-analytische taken. Getraind op DataMind-12K, behaalt onze DataMind-14B state-of-the-art met een gemiddelde score van 71.16% op meerdere data-analysebenchmarks, wat beter is dan de sterkste propriëtaire baselines DeepSeek-V3.1 en GPT-5. Onze DataMind-7B presteert ook het beste onder alle open-source modellen met een score van 68.10%. We nemen ook enkele empirische inzichten op die we hebben opgedaan tijdens onze verkennende proeven in de analyse-experimenten, met als doel bruikbare inzichten te bieden over agent-training voor de gemeenschap. We zullen DataMind-12K en DataMind-7B,14B vrijgeven voor toekomstig onderzoek door de gemeenschap.
English
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.