EvoDS: саморазвивающийся автономный агент науки о данных с обучением навыкам и управлением контекстом

Аннотация

Недавние достижения в области агентов на базе больших языковых моделей (LLM) позволили добиться значительного прогресса в автоматизации науки о данных. Однако существующие подходы остаются принципиально ограниченными из-за статических наборов действий и отсутствия принципиального управления долгосрочным контекстом, что препятствует их способности накапливать повторно используемый опыт в рамках различных задач и надежно функционировать в многоэтапных итеративных конвейерах анализа данных. Для решения этих проблем мы представляем EvoDS — самоэволюционирующий автономный агент для науки о данных, который обучается расширять свои навыки и адаптивно управлять долгосрочным контекстом с помощью агентного обучения с подкреплением. В частности, EvoDS вводит две ключевые стратегии: (1) механизм автономного приобретения навыков (ASA), позволяющий агентам синтезировать, проверять и повторно использовать исполняемые навыки; и (2) стратегию адаптивного сжатия контекста (ACC), которая рассматривает управление контекстом как задачу обучения, а не пассивное усечение. Эти стратегии объединены в рамках двухэтапной схемы обучения нескольких агентов, что позволяет EvoDS со временем автономно совершенствоваться. Теоретически мы доказываем, что иерархическая архитектура EvoDS снижает ошибки выбора инструментов, а ее целевая функция оптимизации соответствует принципу информационного узкого места, обеспечивая эффективное использование контекста. Эмпирически EvoDS превосходит современные агенты для науки о данных с открытым исходным кодом в среднем на 28,9% по четырем различным эталонным тестам, полностью устраняя ошибки, связанные с исчерпанием токенов. Наш код и данные доступны по адресу https://github.com/usail-hkust/EvoDS.

English

Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.