Scalabilità di Agenti Analitici Generalisti
Scaling Generalist Data-Analytic Agents
September 29, 2025
Autori: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Abstract
Gli agenti di analisi dati stanno emergendo come un catalizzatore chiave per la scoperta scientifica automatizzata e per la visione dell'AI innovativa. Gli approcci attuali, tuttavia, si basano fortemente sull'ingegneria dei prompt su modelli proprietari, mentre i modelli open-source faticano a gestire file di dati su larga scala e in formati diversi, nonché il ragionamento multi-step a lungo orizzonte richiesto dalle analisi del mondo reale. Questo articolo introduce DataMind, una ricetta scalabile per la sintesi dei dati e l'addestramento di agenti progettata per costruire agenti di analisi dati generalisti. DataMind affronta tre sfide principali nella costruzione di agenti di analisi dati open-source, tra cui risorse dati insufficienti, strategie di addestramento inadeguate e rollout multi-turn basato su codice instabile. Nello specifico, DataMind applica 1) una tassonomia fine delle attività e un meccanismo ricorsivo di composizione delle attività da facile a difficile per aumentare la diversità e la difficoltà delle query sintetizzate; 2) una strategia di campionamento delle traiettorie arricchita da conoscenze, seguita da filtraggio basato su modelli e regole; 3) un obiettivo di addestramento regolabile dinamicamente che combina perdite SFT e RL; 4) un framework di rollout multi-turn basato su codice stabile e a basso consumo di memoria. Basandoci su DataMind, abbiamo curato DataMind-12K, un set di traiettorie di alta qualità che copre diversi domini, categorie di attività e formati di file di dati per attività di analisi dati. Addestrato su DataMind-12K, il nostro DataMind-14B raggiunge lo stato dell'arte con un punteggio medio del 71,16% su più benchmark di analisi dati, superando i più forti baseline proprietari DeepSeek-V3.1 e GPT-5. Il nostro DataMind-7B si posiziona anche come il migliore tra tutti i modelli open-source con un punteggio del 68,10%. Abbiamo inoltre incorporato alcune intuizioni empiriche ottenute dai nostri test esplorativi negli esperimenti di analisi, con l'obiettivo di fornire spunti pratici sull'addestramento degli agenti per la comunità. Rilasceremo DataMind-12K e DataMind-7B,14B per la ricerca futura della comunità.
English
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.