EvoDS: Agente Autónomo de Ciencia de Datos Auto-Evolutivo con Aprendizaje de Habilidades y Gestión de Contexto

Resumen

Los avances recientes en agentes basados en modelos de lenguaje de gran escala (LLM) han permitido progresos prometedores en la ciencia de datos automatizada. Sin embargo, los enfoques existentes siguen estando fundamentalmente limitados por sus conjuntos de acciones estáticas y la falta de una gestión de contexto a largo plazo basada en principios, lo que dificulta su capacidad para acumular experiencia reutilizable entre tareas y operar de manera fiable en procesos iterativos y de múltiples etapas propios de la ciencia de datos. Para abordar estos desafíos, presentamos EvoDS, un agente de ciencia de datos autónomo y auto-evolutivo que aprende a expandir sus habilidades y gestionar adaptativamente el contexto a largo plazo mediante aprendizaje por refuerzo agéntico. Específicamente, EvoDS introduce dos estrategias clave: (1) el mecanismo de Adquisición Autónoma de Habilidades (ASA), que permite a los agentes sintetizar, validar y reutilizar habilidades ejecutables; y (2) la estrategia de Compresión Adaptativa de Contexto (ACC), que trata la gestión del contexto como un problema de control aprendido en lugar de un truncamiento pasivo. Estas estrategias se orquestan dentro de un esquema de entrenamiento multi-agente en dos etapas, lo que permite que EvoDS mejore autónomamente con el tiempo. Teóricamente, demostramos que el diseño jerárquico de EvoDS reduce el error de selección de herramientas y que su objetivo de optimización se alinea con un principio de cuello de botella de información, garantizando un uso eficiente del contexto. Empíricamente, EvoDS supera a los agentes de ciencia de datos de código abierto más avanzados en un promedio del 28.9% en cuatro conjuntos de referencia diversos, al tiempo que elimina los fallos por falta de tokens. Nuestro código y datos están disponibles en https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.