EvoDS: Zelf-evoluerende autonome data science-agent met vaardigheidsleren en contextbeheer

Samenvatting

Recente vooruitgang in Large Language Model (LLM)-agenten heeft veelbelovende ontwikkelingen in geautomatiseerde datawetenschap mogelijk gemaakt. Bestaande benaderingen blijven echter fundamenteel beperkt door hun statische actiesets en het ontbreken van principieel langetermijncontextbeheer, wat hun vermogen belemmert om herbruikbare ervaring over taken heen op te bouwen en betrouwbaar te werken in meerfasige, iteratieve datawetenschapspijplijnen. Om deze uitdagingen aan te pakken, introduceren we EvoDS, een zelf-evoluerende autonome datawetenschapsagent die leert zijn vaardigheden uit te breiden en adaptief langetermijncontext te beheren via agentische versterkingsleren. Specifiek introduceert EvoDS twee belangrijke strategieën: (1) een Autonome Vaardigheidsverwerving (ASA)-mechanisme, waarmee agenten uitvoerbare vaardigheden kunnen synthetiseren, valideren en hergebruiken; en (2) een Adaptieve Contextcompressie (ACC)-strategie, die contextbeheer behandelt als een geleerd controleprobleem in plaats van passieve afkapping. Deze strategieën worden georkestreerd binnen een tweefasig multi-agent trainingsschema, waardoor EvoDS autonoom kan verbeteren in de loop van de tijd. Theoretisch bewijzen we dat het hiërarchische ontwerp van EvoDS de gereedschapsselectiefout vermindert, en dat de optimalisatiedoelstelling overeenkomt met een informatieknelpuntprincipe, wat zorgt voor efficiënt contextgebruik. Empirisch presteert EvoDS gemiddeld 28,9% beter dan state-of-the-art open-source datawetenschapsagenten op vier diverse benchmarks, terwijl het tokenoverschrijdingsfouten elimineert. Onze code en gegevens zijn beschikbaar op https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.