EvoDS : Agent autonome auto-évolutif de science des données avec apprentissage de compétences et gestion du contexte

Résumé

Les progrès récents des agents fondés sur les grands modèles de langage (LLM) ont permis des avancées prometteuses en science des données automatisée. Cependant, les approches existantes restent fondamentalement limitées par leurs ensembles d'actions statiques et l'absence d'une gestion de contexte à long terme fondée sur des principes, ce qui entrave leur capacité à accumuler une expérience réutilisable d'une tâche à l'autre et à fonctionner de manière fiable dans des pipelines de science des données itératifs et multi-étapes. Pour relever ces défis, nous présentons EvoDS, un agent de science des données autonome et auto-évolutif qui apprend à étendre ses compétences et à gérer de manière adaptative le contexte à long terme grâce à l'apprentissage par renforcement agentique. Plus précisément, EvoDS introduit deux stratégies clés : (1) un mécanisme d'acquisition autonome de compétences (ASA), permettant aux agents de synthétiser, valider et réutiliser des compétences exécutables ; et (2) une stratégie de compression adaptative du contexte (ACC), qui traite la gestion du contexte comme un problème de contrôle appris plutôt que comme une troncature passive. Ces stratégies sont orchestrées dans un schéma d'entraînement multi-agents en deux étapes, permettant à EvoDS de s'améliorer de manière autonome au fil du temps. Théoriquement, nous prouvons que la conception hiérarchique d'EvoDS réduit l'erreur de sélection d'outils, et que son objectif d'optimisation s'aligne sur un principe de goulot d'étranglement informationnel, garantissant une utilisation efficace du contexte. Empiriquement, EvoDS surpasse en moyenne de 28,9 % les agents de science des données open source de pointe sur quatre jeux de données de référence diversifiés, tout en éliminant les échecs liés au dépassement de limite de tokens. Notre code et nos données sont disponibles à l'adresse https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.