ChatPaper.aiChatPaper

Mise à l'échelle d'agents généralistes d'analyse de données

Scaling Generalist Data-Analytic Agents

September 29, 2025
papers.authors: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI

papers.abstract

Les agents d'analyse de données émergent comme un catalyseur clé pour la découverte scientifique automatisée et pour la vision de l'Innovation en IA. Cependant, les approches actuelles reposent fortement sur l'ingénierie des prompts sur des modèles propriétaires, tandis que les modèles open-source peinent à gérer des fichiers de données à grande échelle et de formats divers, ainsi que des raisonnements multi-étapes et à long horizon que requiert l'analyse en contexte réel. Cet article présente DataMind, une méthode évolutive de synthèse de données et de formation d'agents conçue pour construire des agents d'analyse de données généralistes. DataMind aborde trois défis majeurs dans la construction d'agents d'analyse de données open-source, incluant l'insuffisance des ressources de données, une stratégie de formation inappropriée et un déploiement multi-tours basé sur du code instable. Concrètement, DataMind applique 1) une taxonomie fine des tâches et un mécanisme de composition récursive de tâches faciles à difficiles pour augmenter la diversité et la complexité des requêtes synthétisées ; 2) une stratégie d'échantillonnage de trajectoires enrichie par des connaissances, suivie d'un filtrage basé sur des modèles et des règles ; 3) un objectif de formation ajustable dynamiquement combinant les pertes SFT et RL ; 4) un cadre de déploiement multi-tours basé sur du code, économe en mémoire et stable. Basé sur DataMind, nous avons constitué DataMind-12K, un ensemble de trajectoires de haute qualité couvrant divers domaines, catégories de tâches et formats de fichiers pour les tâches d'analyse de données. Formé sur DataMind-12K, notre modèle DataMind-14B atteint l'état de l'art avec un score moyen de 71,16 % sur plusieurs benchmarks d'analyse de données, surpassant les meilleurs modèles propriétaires DeepSeek-V3.1 et GPT-5. Notre modèle DataMind-7B se classe également premier parmi tous les modèles open-source avec un score de 68,10 %. Nous intégrons également certaines observations empiriques issues de nos essais exploratoires dans les expériences d'analyse, dans le but de fournir des insights exploitables sur la formation des agents pour la communauté. Nous publierons DataMind-12K ainsi que les modèles DataMind-7B et 14B pour les recherches futures de la communauté.
English
Data-analytic agents are emerging as a key catalyst for automated scientific discovery and for the vision of Innovating AI. Current approaches, however, rely heavily on prompt engineering over proprietary models, while open-source models struggle to face diverse-format, large-scale data files and long-horizon, multi-step reasoning that real-world analytics demands. This paper introduces DataMind, a scalable data synthesis and agent training recipe designed to build generalist data-analytic agents. DataMind tackles three key challenges in building open-source data-analytic agents, including insufficient data resources, improper training strategy, and unstable code-based multi-turn rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a recursive easy-to-hard task composition mechanism to increase the diversity and difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling strategy followed by model-based and rule-based filtering; 3) a dynamically adjustable training objective combining both SFT and RL losses; 4) a memory-frugal and stable code-based multi-turn rollout framework. Built on DataMind, we curate DataMind-12K, a high-quality trajectory set spanning diverse domains, task categories, and data file formats for data-analytic tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with an average score of 71.16% on multiple data analysis benchmarks, outperforming the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B also performs best among all open-source models with a score of 68.10%. We also incorporate some empirical insights gained from our exploratory trials into the analysis experiments, aiming to provide actionable insights about agentic training for the community. We will release DataMind-12K and DataMind-7B,14B for the community's future research.
PDF112September 30, 2025