Масштабирование универсальных агентов для анализа данных
Scaling Generalist Data-Analytic Agents
September 29, 2025
Авторы: Shuofei Qiao, Yanqiu Zhao, Zhisong Qiu, Xiaobin Wang, Jintian Zhang, Zhao Bin, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
cs.AI
Аннотация
Агенты анализа данных становятся ключевым катализатором автоматизированного научного открытия и реализации концепции Инновационного ИИ. Однако современные подходы в значительной степени полагаются на инженерию запросов для проприетарных моделей, в то время как модели с открытым исходным кодом сталкиваются с трудностями при обработке данных в разнообразных форматах, крупномасштабных файлов и многошагового рассуждения, требуемого реальной аналитикой. В данной статье представлен DataMind — масштабируемый метод синтеза данных и обучения агентов, предназначенный для создания универсальных агентов анализа данных. DataMind решает три ключевые проблемы при разработке агентов с открытым исходным кодом: недостаточные ресурсы данных, неподходящая стратегия обучения и нестабильность многошагового выполнения на основе кода. Конкретно, DataMind применяет: 1) детальную таксономию задач и рекурсивный механизм композиции задач от простого к сложному для увеличения разнообразия и сложности синтезированных запросов; 2) стратегию выборки траекторий, дополненную знаниями, с последующей фильтрацией на основе моделей и правил; 3) динамически настраиваемую цель обучения, сочетающую потери SFT и RL; 4) экономичный по памяти и стабильный фреймворк для многошагового выполнения на основе кода. На основе DataMind мы создали DataMind-12K — высококачественный набор траекторий, охватывающий различные области, категории задач и форматы файлов для задач анализа данных. Обучившись на DataMind-12K, наша модель DataMind-14B достигает наилучших результатов со средним показателем 71,16% на нескольких бенчмарках анализа данных, превосходя сильнейшие проприетарные базовые модели DeepSeek-V3.1 и GPT-5. Наша модель DataMind-7B также показывает наилучшие результаты среди всех моделей с открытым исходным кодом с показателем 68,10%. Мы также включаем в анализ экспериментов эмпирические инсайты, полученные в ходе исследовательских испытаний, с целью предоставить сообществу практические рекомендации по обучению агентов. Мы опубликуем DataMind-12K и модели DataMind-7B, 14B для дальнейших исследований сообщества.
English
Data-analytic agents are emerging as a key catalyst for automated scientific
discovery and for the vision of Innovating AI. Current approaches, however,
rely heavily on prompt engineering over proprietary models, while open-source
models struggle to face diverse-format, large-scale data files and
long-horizon, multi-step reasoning that real-world analytics demands. This
paper introduces DataMind, a scalable data synthesis and agent training recipe
designed to build generalist data-analytic agents. DataMind tackles three key
challenges in building open-source data-analytic agents, including insufficient
data resources, improper training strategy, and unstable code-based multi-turn
rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a
recursive easy-to-hard task composition mechanism to increase the diversity and
difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling
strategy followed by model-based and rule-based filtering; 3) a dynamically
adjustable training objective combining both SFT and RL losses; 4) a
memory-frugal and stable code-based multi-turn rollout framework. Built on
DataMind, we curate DataMind-12K, a high-quality trajectory set spanning
diverse domains, task categories, and data file formats for data-analytic
tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with
an average score of 71.16% on multiple data analysis benchmarks, outperforming
the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B
also performs best among all open-source models with a score of 68.10%. We also
incorporate some empirical insights gained from our exploratory trials into the
analysis experiments, aiming to provide actionable insights about agentic
training for the community. We will release DataMind-12K and DataMind-7B,14B
for the community's future research.