ChatPaper.aiChatPaper

Skalierung allgemeiner datenanalytischer Agenten

Scaling Generalist Data-Analytic Agents

September 29, 2025
papers.authors: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI

papers.abstract

Datenanalytische Agenten entwickeln sich zunehmend zu einem zentralen Katalysator für die automatisierte wissenschaftliche Entdeckung und die Vision von innovativer KI. Aktuelle Ansätze stützen sich jedoch stark auf Prompt-Engineering über proprietäre Modelle, während Open-Source-Modelle Schwierigkeiten haben, vielfältige Formate, großvolumige Datenbestände sowie langfristige, mehrstufige Denkprozesse zu bewältigen, wie sie die reale Datenanalyse erfordert. Dieses Paper stellt DataMind vor, eine skalierbare Methode zur Datensynthese und Agentenschulung, die darauf abzielt, generalistische datenanalytische Agenten zu entwickeln. DataMind adressiert drei zentrale Herausforderungen beim Aufbau von Open-Source-datenanalytischen Agenten: unzureichende Datenressourcen, ungeeignete Trainingsstrategien und instabile, codebasierte Mehrschritt-Ausführung. Konkret wendet DataMind 1) eine feingranulare Aufgaben-Taxonomie und einen rekursiven Mechanismus zur Zusammensetzung von einfachen zu komplexen Aufgaben an, um die Vielfalt und Schwierigkeit synthetisierter Anfragen zu erhöhen; 2) eine wissensgestützte Trajektorien-Sampling-Strategie, gefolgt von modell- und regelbasiertem Filtern; 3) ein dynamisch anpassbares Trainingsziel, das sowohl SFT- als auch RL-Verluste kombiniert; 4) einen speichereffizienten und stabilen, codebasierten Mehrschritt-Ausführungsrahmen. Basierend auf DataMind haben wir DataMind-12K kuratiert, einen hochwertigen Trajektorien-Datensatz, der verschiedene Domänen, Aufgabenkategorien und Datenformate für datenanalytische Aufgaben abdeckt. Mit DataMind-12K trainiert, erreicht unser DataMind-14B mit einem Durchschnittswert von 71,16 % auf mehreren Datenanalyse-Benchmarks den State-of-the-Art und übertrifft die stärksten proprietären Baselines DeepSeek-V3.1 und GPT-5. Unser DataMind-7B erzielt ebenfalls die beste Leistung unter allen Open-Source-Modellen mit einem Wert von 68,10 %. Wir integrieren auch einige empirische Erkenntnisse aus unseren explorativen Versuchen in die Analyseexperimente, um der Community praxisrelevante Einblicke in das agentenbasierte Training zu bieten. Wir werden DataMind-12K sowie DataMind-7B und 14B für die zukünftige Forschung der Community veröffentlichen.
English
Data-analytic agents are emerging as a key catalyst for automated scientific discovery and for the vision of Innovating AI. Current approaches, however, rely heavily on prompt engineering over proprietary models, while open-source models struggle to face diverse-format, large-scale data files and long-horizon, multi-step reasoning that real-world analytics demands. This paper introduces DataMind, a scalable data synthesis and agent training recipe designed to build generalist data-analytic agents. DataMind tackles three key challenges in building open-source data-analytic agents, including insufficient data resources, improper training strategy, and unstable code-based multi-turn rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a recursive easy-to-hard task composition mechanism to increase the diversity and difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling strategy followed by model-based and rule-based filtering; 3) a dynamically adjustable training objective combining both SFT and RL losses; 4) a memory-frugal and stable code-based multi-turn rollout framework. Built on DataMind, we curate DataMind-12K, a high-quality trajectory set spanning diverse domains, task categories, and data file formats for data-analytic tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with an average score of 71.16% on multiple data analysis benchmarks, outperforming the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B also performs best among all open-source models with a score of 68.10%. We also incorporate some empirical insights gained from our exploratory trials into the analysis experiments, aiming to provide actionable insights about agentic training for the community. We will release DataMind-12K and DataMind-7B,14B for the community's future research.
PDF112September 30, 2025