Escalonamento de Agentes Analíticos de Dados Generalistas
Scaling Generalist Data-Analytic Agents
September 29, 2025
Autores: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Resumo
Agentes de análise de dados estão surgindo como um catalisador fundamental para a descoberta científica automatizada e para a visão de Inovação em IA. As abordagens atuais, no entanto, dependem fortemente de engenharia de prompts sobre modelos proprietários, enquanto modelos de código aberto lutam para lidar com arquivos de dados em grande escala e formatos diversos, além de raciocínios de múltiplos passos e longo horizonte que as análises do mundo real exigem. Este artigo apresenta o DataMind, uma receita escalável de síntese de dados e treinamento de agentes projetada para construir agentes generalistas de análise de dados. O DataMind aborda três desafios principais na construção de agentes de análise de dados de código aberto, incluindo recursos de dados insuficientes, estratégia de treinamento inadequada e execução instável baseada em código em múltiplas interações. Concretamente, o DataMind aplica 1) uma taxonomia de tarefas detalhada e um mecanismo de composição de tarefas recursivo do fácil para o difícil para aumentar a diversidade e a dificuldade das consultas sintetizadas; 2) uma estratégia de amostragem de trajetória aumentada por conhecimento, seguida de filtragem baseada em modelo e em regras; 3) um objetivo de treinamento ajustável dinamicamente, combinando perdas de SFT e RL; 4) um framework de execução baseado em código em múltiplas interações, econômico em memória e estável. Baseado no DataMind, criamos o DataMind-12K, um conjunto de trajetórias de alta qualidade abrangendo diversos domínios, categorias de tarefas e formatos de arquivos de dados para tarefas de análise de dados. Treinado no DataMind-12K, nosso DataMind-14B alcança o estado da arte com uma pontuação média de 71,16% em múltiplos benchmarks de análise de dados, superando os baselines proprietários mais fortes, DeepSeek-V3.1 e GPT-5. Nosso DataMind-7B também apresenta o melhor desempenho entre todos os modelos de código aberto, com uma pontuação de 68,10%. Também incorporamos algumas percepções empíricas obtidas em nossos testes exploratórios nos experimentos de análise, com o objetivo de fornecer insights acionáveis sobre o treinamento de agentes para a comunidade. Liberaremos o DataMind-12K e os modelos DataMind-7B e 14B para pesquisas futuras da comunidade.
English
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.