Escalando Agentes Generales de Análisis de Datos
Scaling Generalist Data-Analytic Agents
September 29, 2025
Autores: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Resumen
Los agentes de análisis de datos están surgiendo como un catalizador clave para el descubrimiento científico automatizado y para la visión de la Innovación en IA. Sin embargo, los enfoques actuales dependen en gran medida de la ingeniería de prompts sobre modelos propietarios, mientras que los modelos de código abierto luchan por enfrentarse a archivos de datos a gran escala con formatos diversos y a razonamientos de múltiples pasos y largo alcance que exige el análisis del mundo real. Este artículo presenta DataMind, una receta escalable de síntesis de datos y entrenamiento de agentes diseñada para construir agentes generalistas de análisis de datos. DataMind aborda tres desafíos clave en la construcción de agentes de análisis de datos de código abierto, incluyendo recursos de datos insuficientes, estrategias de entrenamiento inadecuadas y un despliegue multiturno basado en código inestable. Concretamente, DataMind aplica 1) una taxonomía de tareas detallada y un mecanismo de composición de tareas recursivo de fácil a difícil para aumentar la diversidad y dificultad de las consultas sintetizadas; 2) una estrategia de muestreo de trayectorias aumentada con conocimiento seguida de filtrado basado en modelos y reglas; 3) un objetivo de entrenamiento ajustable dinámicamente que combina pérdidas de SFT y RL; 4) un marco de despliegue multiturno basado en código estable y eficiente en memoria. Basado en DataMind, hemos creado DataMind-12K, un conjunto de trayectorias de alta calidad que abarca diversos dominios, categorías de tareas y formatos de archivos de datos para tareas de análisis de datos. Entrenado en DataMind-12K, nuestro DataMind-14B alcanza un estado del arte con una puntuación promedio del 71.16% en múltiples benchmarks de análisis de datos, superando a los baselines propietarios más fuertes, DeepSeek-V3.1 y GPT-5. Nuestro DataMind-7B también obtiene el mejor rendimiento entre todos los modelos de código abierto con una puntuación del 68.10%. Además, incorporamos algunas ideas empíricas obtenidas de nuestros ensayos exploratorios en los experimentos de análisis, con el objetivo de proporcionar conocimientos prácticos sobre el entrenamiento de agentes para la comunidad. Liberaremos DataMind-12K y DataMind-7B,14B para futuras investigaciones de la comunidad.
English
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.