DeepAnalyze: Agentische Große Sprachmodelle für autonome Datenwissenschaft

papers.abstract

Autonome Datenwissenschaft, von Rohdatenquellen bis hin zu tiefgehenden Forschungsberichten auf Analystenniveau, stellt seit langem eine Herausforderung dar und wird nun mit dem Aufkommen leistungsstarker großer Sprachmodelle (LLMs) realisierbar. Aktuelle workflow-basierte Datenagenten haben vielversprechende Ergebnisse bei spezifischen Datenaufgaben gezeigt, bleiben jedoch aufgrund ihrer Abhängigkeit von vordefinierten Workflows grundsätzlich eingeschränkt, um vollständig autonome Datenwissenschaft zu erreichen. In diesem Artikel stellen wir DeepAnalyze-8B vor, das erste agentische LLM, das für autonome Datenwissenschaft entwickelt wurde und in der Lage ist, die End-to-End-Pipeline von Datenquellen bis zu tiefgehenden Forschungsberichten auf Analystenniveau automatisch zu durchlaufen. Um hochkomplexe Datenwissenschaftsaufgaben zu bewältigen, schlagen wir ein curriculum-basiertes agentisches Trainingsparadigma vor, das den Lernpfad menschlicher Datenwissenschaftler nachahmt und es LLMs ermöglicht, schrittweise multiple Fähigkeiten in realen Umgebungen zu erwerben und zu integrieren. Zudem führen wir ein datengestütztes Trajektoriensynthese-Framework ein, das hochwertige Trainingsdaten konstruiert. Durch agentisches Training erlernt DeepAnalyze eine breite Palette von Datenaufgaben, von der Beantwortung von Datenfragen und spezialisierten analytischen Aufgaben bis hin zu offenen Datenforschungen. Experimente zeigen, dass DeepAnalyze mit nur 8B Parametern bisherige workflow-basierte Agenten, die auf den fortschrittlichsten proprietären LLMs aufbauen, übertrifft. Das Modell, der Code und die Trainingsdaten von DeepAnalyze sind Open Source, wodurch der Weg zur autonomen Datenwissenschaft geebnet wird.

English

Autonomous data science, from raw data sources to analyst-grade deep research reports, has been a long-standing challenge, and is now becoming feasible with the emergence of powerful large language models (LLMs). Recent workflow-based data agents have shown promising results on specific data tasks but remain fundamentally limited in achieving fully autonomous data science due to their reliance on predefined workflows. In this paper, we introduce DeepAnalyze-8B, the first agentic LLM designed for autonomous data science, capable of automatically completing the end-toend pipeline from data sources to analyst-grade deep research reports. To tackle high-complexity data science tasks, we propose a curriculum-based agentic training paradigm that emulates the learning trajectory of human data scientists, enabling LLMs to progressively acquire and integrate multiple capabilities in real-world environments. We also introduce a data-grounded trajectory synthesis framework that constructs high-quality training data. Through agentic training, DeepAnalyze learns to perform a broad spectrum of data tasks, ranging from data question answering and specialized analytical tasks to open-ended data research. Experiments demonstrate that, with only 8B parameters, DeepAnalyze outperforms previous workflow-based agents built on most advanced proprietary LLMs. The model, code, and training data of DeepAnalyze are open-sourced, paving the way toward autonomous data science.

DeepAnalyze: Agentische Große Sprachmodelle für autonome Datenwissenschaft

DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

papers.abstract

Support