LongDS-Bench: Over het falen van langetermijn agentische data-analyse

Samenvatting

Data-analyse in de echte wereld is inherent iteratief, maar bestaande benchmarks evalueren meestal geïsoleerde of korte interactieve taken, waardoor het vermogen van agenten om een evoluerende analytische context over lange tijdshorizonten te volgen ongetest blijft. Wij introduceren LongDS, een benchmark voor meerstaps data-analyse over lange tijdshorizonten, waarbij agenten evoluerende analytische toestanden moeten onderhouden, bijwerken, herstellen en combineren. LongDS omvat 68 taken samengesteld uit echte Kaggle-notebooks, met 2.225 beurten verdeeld over zes domeinen, waaronder Geowetenschappen, Bedrijfsleven en Onderwijs. De taken zijn ontworpen rond patronen van toestandsevolutie (bijv. contrafeitelijke perturbatie, terugdraaien en compositie van meerdere toestanden), met een gemiddelde afhankelijkheidsspanne van 11,3 beurten. Bij het evalueren van vijf state-of-the-art modellen blijkt dat het beste model slechts een gemiddelde nauwkeurigheid van 48,45% haalt, de prestatie bijna 47 punten daalt van vroege naar late beurten, en fouten over lange tijdshorizonten verantwoordelijk zijn voor 52% tot 69% van de mislukkingen. Verdere analyse toont aan dat extra agentstappen niet noodzakelijkerwijs de prestaties verbeteren, wat suggereert dat het belangrijkste knelpunt het handhaven van een correcte analytische toestand is in plaats van het verhogen van het interactiebudget. We brengen LongDS uit om onderzoek naar betrouwbare geautomatiseerde data-analyse over lange tijdshorizonten te ondersteunen. Code en data worden vrijgegeven op https://github.com/zjunlp/DataMind.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.