LongDS-Bench: О неудаче долгосрочного агентного анализа данных

Аннотация

Анализ реальных данных по своей сути является итеративным, однако существующие бенчмарки в основном оценивают изолированные или короткие интерактивные задачи, оставляя без проверки способность агентов отслеживать развивающийся аналитический контекст на длинных горизонтах. Мы представляем LongDS — бенчмарк для долгосрочного многошагового анализа данных, в котором агенты должны поддерживать, обновлять, восстанавливать и комбинировать развивающиеся аналитические состояния. LongDS состоит из 68 задач, построенных на основе реальных блокнотов Kaggle, охватывающих 2225 шагов в шести предметных областях, включая геонауку, бизнес и образование. Задачи разработаны вокруг паттернов эволюции состояний (например, контрфактическое возмущение, откат, композиция нескольких состояний) со средней протяженностью зависимостей в 11,3 шага. При оценке пяти современных моделей мы обнаружили, что лучшая модель достигает лишь 48,45% средней точности, производительность падает почти на 47 пунктов от ранних к поздним шагам, а ошибки на длинных горизонтах составляют от 52% до 69% всех отказов. Дальнейший анализ показывает, что дополнительные шаги агента не обязательно улучшают производительность, что указывает на то, что ключевым узким местом является поддержание правильного аналитического состояния, а не увеличение бюджета взаимодействий. Мы публикуем LongDS для поддержки исследований в области надежного долгосрочного агентного анализа данных. Код и данные будут опубликованы по адресу https://github.com/zjunlp/DataMind.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.