EvoDS: Sich selbst weiterentwickelnder autonomer Data-Science-Agent mit Fähigkeitenlernen und Kontextverwaltung

Zusammenfassung

Jüngste Fortschritte bei Large Language Model (LLM)-Agenten haben vielversprechende Entwicklungen in der automatisierten Datenwissenschaft ermöglicht. Bestehende Ansätze bleiben jedoch grundlegend durch ihre statischen Aktionsmengen und das Fehlen eines prinzipiengeleiteten, langfristigen Kontextmanagements eingeschränkt, was ihre Fähigkeit behindert, wiederverwendbare Erfahrungen über Aufgaben hinweg zu sammeln und in mehrstufigen, iterativen Datenwissenschaftspipelines zuverlässig zu operieren. Um diese Herausforderungen zu bewältigen, stellen wir EvoDS vor, einen sich selbst weiterentwickelnden autonomen Datenwissenschaftsagenten, der durch agentisches Reinforcement Learning lernt, seine Fähigkeiten zu erweitern und den langfristigen Kontext adaptiv zu verwalten. Insbesondere führt EvoDS zwei Schlüsselstrategien ein: (1) den Mechanismus des autonomen Fertigkeitserwerbs (ASA), der es Agenten ermöglicht, ausführbare Fähigkeiten zu synthetisieren, zu validieren und wiederzuverwenden; und (2) die Strategie der adaptiven Kontextkompression (ACC), die Kontextmanagement als ein erlerntes Kontrollproblem und nicht als passive Trunkierung behandelt. Diese Strategien werden in einem zweistufigen Multi-Agenten-Trainingsschema orchestriert, das es EvoDS ermöglicht, sich im Laufe der Zeit autonom zu verbessern. Theoretisch beweisen wir, dass das hierarchische Design von EvoDS den Werkzeugauswahlfehler reduziert und sein Optimierungsziel mit einem Informationsengpassprinzip übereinstimmt, was eine effiziente Kontextnutzung gewährleistet. Empirisch übertrifft EvoDS modernste Open-Source-Datenwissenschaftsagenten um durchschnittlich 28,9 % in vier verschiedenen Benchmarks, während Token-Überlauffehler eliminiert werden. Unser Code und unsere Daten sind verfügbar unter https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.