DeepAnalyze: Agentische Große Sprachmodelle für autonome Datenwissenschaft
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
October 19, 2025
papers.authors: Shaolei Zhang, Ju Fan, Meihao Fan, Guoliang Li, Xiaoyong Du
cs.AI
papers.abstract
Autonome Datenwissenschaft, von Rohdatenquellen bis hin zu tiefgehenden Forschungsberichten auf Analystenniveau, stellt seit langem eine Herausforderung dar und wird nun mit dem Aufkommen leistungsstarker großer Sprachmodelle (LLMs) realisierbar. Aktuelle workflow-basierte Datenagenten haben vielversprechende Ergebnisse bei spezifischen Datenaufgaben gezeigt, bleiben jedoch aufgrund ihrer Abhängigkeit von vordefinierten Workflows grundsätzlich eingeschränkt, um vollständig autonome Datenwissenschaft zu erreichen. In diesem Artikel stellen wir DeepAnalyze-8B vor, das erste agentische LLM, das für autonome Datenwissenschaft entwickelt wurde und in der Lage ist, die End-to-End-Pipeline von Datenquellen bis zu tiefgehenden Forschungsberichten auf Analystenniveau automatisch zu durchlaufen. Um hochkomplexe Datenwissenschaftsaufgaben zu bewältigen, schlagen wir ein curriculum-basiertes agentisches Trainingsparadigma vor, das den Lernpfad menschlicher Datenwissenschaftler nachahmt und es LLMs ermöglicht, schrittweise multiple Fähigkeiten in realen Umgebungen zu erwerben und zu integrieren. Zudem führen wir ein datengestütztes Trajektoriensynthese-Framework ein, das hochwertige Trainingsdaten konstruiert. Durch agentisches Training erlernt DeepAnalyze eine breite Palette von Datenaufgaben, von der Beantwortung von Datenfragen und spezialisierten analytischen Aufgaben bis hin zu offenen Datenforschungen. Experimente zeigen, dass DeepAnalyze mit nur 8B Parametern bisherige workflow-basierte Agenten, die auf den fortschrittlichsten proprietären LLMs aufbauen, übertrifft. Das Modell, der Code und die Trainingsdaten von DeepAnalyze sind Open Source, wodurch der Weg zur autonomen Datenwissenschaft geebnet wird.
English
Autonomous data science, from raw data sources to analyst-grade deep research
reports, has been a long-standing challenge, and is now becoming feasible with
the emergence of powerful large language models (LLMs). Recent workflow-based
data agents have shown promising results on specific data tasks but remain
fundamentally limited in achieving fully autonomous data science due to their
reliance on predefined workflows. In this paper, we introduce DeepAnalyze-8B,
the first agentic LLM designed for autonomous data science, capable of
automatically completing the end-toend pipeline from data sources to
analyst-grade deep research reports. To tackle high-complexity data science
tasks, we propose a curriculum-based agentic training paradigm that emulates
the learning trajectory of human data scientists, enabling LLMs to
progressively acquire and integrate multiple capabilities in real-world
environments. We also introduce a data-grounded trajectory synthesis framework
that constructs high-quality training data. Through agentic training,
DeepAnalyze learns to perform a broad spectrum of data tasks, ranging from data
question answering and specialized analytical tasks to open-ended data
research. Experiments demonstrate that, with only 8B parameters, DeepAnalyze
outperforms previous workflow-based agents built on most advanced proprietary
LLMs. The model, code, and training data of DeepAnalyze are open-sourced,
paving the way toward autonomous data science.