DeepAnalyze: Modelos de Linguagem de Grande Escala Agênticos para Ciência de Dados Autônoma
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
October 19, 2025
Autores: Shaolei Zhang, Ju Fan, Meihao Fan, Guoliang Li, Xiaoyong Du
cs.AI
Resumo
A ciência de dados autônoma, desde fontes de dados brutos até relatórios de pesquisa profunda de nível analítico, tem sido um desafio de longa data e agora está se tornando viável com o surgimento de modelos de linguagem de grande escala (LLMs) poderosos. Agentes de dados baseados em fluxos de trabalho recentes mostraram resultados promissores em tarefas específicas de dados, mas permanecem fundamentalmente limitados na realização de ciência de dados totalmente autônoma devido à sua dependência de fluxos de trabalho predefinidos. Neste artigo, apresentamos o DeepAnalyze-8B, o primeiro LLM agencial projetado para ciência de dados autônoma, capaz de completar automaticamente o pipeline de ponta a ponta, desde fontes de dados até relatórios de pesquisa profunda de nível analítico. Para enfrentar tarefas de ciência de dados de alta complexidade, propomos um paradigma de treinamento agencial baseado em currículo que emula a trajetória de aprendizado de cientistas de dados humanos, permitindo que os LLMs adquiram e integrem progressivamente múltiplas capacidades em ambientes do mundo real. Também introduzimos um framework de síntese de trajetórias fundamentado em dados que constrói dados de treinamento de alta qualidade. Por meio do treinamento agencial, o DeepAnalyze aprende a executar uma ampla gama de tarefas de dados, desde a resposta a perguntas sobre dados e tarefas analíticas especializadas até pesquisas de dados abertas. Experimentos demonstram que, com apenas 8 bilhões de parâmetros, o DeepAnalyze supera os agentes baseados em fluxos de trabalho anteriores construídos sobre os LLMs proprietários mais avançados. O modelo, o código e os dados de treinamento do DeepAnalyze são de código aberto, abrindo caminho para a ciência de dados autônoma.
English
Autonomous data science, from raw data sources to analyst-grade deep research
reports, has been a long-standing challenge, and is now becoming feasible with
the emergence of powerful large language models (LLMs). Recent workflow-based
data agents have shown promising results on specific data tasks but remain
fundamentally limited in achieving fully autonomous data science due to their
reliance on predefined workflows. In this paper, we introduce DeepAnalyze-8B,
the first agentic LLM designed for autonomous data science, capable of
automatically completing the end-toend pipeline from data sources to
analyst-grade deep research reports. To tackle high-complexity data science
tasks, we propose a curriculum-based agentic training paradigm that emulates
the learning trajectory of human data scientists, enabling LLMs to
progressively acquire and integrate multiple capabilities in real-world
environments. We also introduce a data-grounded trajectory synthesis framework
that constructs high-quality training data. Through agentic training,
DeepAnalyze learns to perform a broad spectrum of data tasks, ranging from data
question answering and specialized analytical tasks to open-ended data
research. Experiments demonstrate that, with only 8B parameters, DeepAnalyze
outperforms previous workflow-based agents built on most advanced proprietary
LLMs. The model, code, and training data of DeepAnalyze are open-sourced,
paving the way toward autonomous data science.