LongDS-Bench : Sur l'échec de l'analyse de données agentique à long horizon

Résumé

L'analyse de données réelles est intrinsèquement itérative, mais les benchmarks existants évaluent principalement des tâches interactives isolées ou de courte durée, laissant inexplorée la capacité des agents à suivre un contexte analytique en évolution sur de longs horizons. Nous présentons LongDS, un benchmark pour l'analyse de données multi-tours à long horizon, où les agents doivent maintenir, mettre à jour, restaurer et composer des états analytiques évolutifs. LongDS comprend 68 tâches construites à partir de notebooks Kaggle réels, totalisant 2 225 tours dans six domaines, dont les géosciences, les affaires et l'éducation. Les tâches sont conçues autour de schémas d'évolution d'état (par exemple, perturbation contrefactuelle, retour en arrière, composition multi-états), avec une portée de dépendance moyenne de 11,3 tours. En évaluant cinq modèles de pointe, nous constatons que le meilleur modèle n'atteint qu'une précision moyenne de 48,45 %, que la performance chute de près de 47 points entre les premiers et les derniers tours, et que les erreurs à long horizon représentent 52 à 69 % des échecs. Une analyse plus poussée montre que des étapes supplémentaires de l'agent n'améliorent pas nécessairement la performance, ce qui suggère que le goulot d'étranglement est le maintien d'un état analytique correct plutôt que l'augmentation du budget d'interaction. Nous publions LongDS pour soutenir la recherche sur l'analyse de données agentive fiable à long horizon. Le code et les données seront disponibles à l'adresse https://github.com/zjunlp/DataMind.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.