EvoDS: Agente Autônomo de Ciência de Dados Autoevolutivo com Aprendizado de Habilidades e Gerenciamento de Contexto

Resumo

O progresso recente em agentes de Modelos de Linguagem de Grande Escala (LLMs) possibilitou avanços promissores na ciência de dados automatizada. No entanto, as abordagens existentes permanecem fundamentalmente limitadas por seus conjuntos de ações estáticos e pela falta de gerenciamento de contexto de longo horizonte baseado em princípios, dificultando sua capacidade de acumular experiência reutilizável entre tarefas e operar de forma confiável em pipelines de ciência de dados iterativos e de múltiplas etapas. Para enfrentar esses desafios, apresentamos o EvoDS, um agente autônomo de ciência de dados autoevolutivo que aprende a expandir suas habilidades e gerenciar adaptativamente o contexto de longo prazo por meio de aprendizado por reforço agentivo. Especificamente, o EvoDS introduz duas estratégias principais: (1) mecanismo de Aquisição Autônoma de Habilidades (ASA), que permite aos agentes sintetizar, validar e reutilizar habilidades executáveis; e (2) estratégia de Compressão Adaptativa de Contexto (ACC), que trata o gerenciamento de contexto como um problema de controle aprendido, em vez de truncamento passivo. Essas estratégias são orquestradas em um esquema de treinamento multiagente de dois estágios, permitindo que o EvoDS melhore autonomamente ao longo do tempo. Teoricamente, provamos que o design hierárquico do EvoDS reduz o erro de seleção de ferramentas, e seu objetivo de otimização está alinhado com o princípio do gargalo de informação, garantindo o uso eficiente do contexto. Empiricamente, o EvoDS supera os agentes de ciência de dados de código aberto mais avançados em uma média de 28,9% em quatro benchmarks diversos, eliminando falhas por falta de tokens. Nosso código e dados estão disponíveis em https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.