LongDS-Bench: Über das Scheitern der langfristigen agentischen Datenanalyse

Zusammenfassung

Die Analyse realer Daten ist von Natur aus iterativ, dennoch bewerten bestehende Benchmarks meist isolierte oder kurze interaktive Aufgaben, sodass die Fähigkeit von Agenten, sich über lange Zeiträume hinweg entwickelnde analytische Kontexte nachzuverfolgen, ungetestet bleibt. Wir stellen LongDS vor, einen Benchmark für langfristige, mehrschrittige Datenanalyse, bei dem Agenten sich entwickelnde analytische Zustände beibehalten, aktualisieren, wiederherstellen und kombinieren müssen. LongDS umfasst 68 Aufgaben, die aus realen Kaggle-Notebooks erstellt wurden, mit 2.225 Interaktionen über sechs Domänen hinweg, darunter Geowissenschaften, Wirtschaft und Bildung. Die Aufgaben sind um Muster der Zustandsentwicklung herum konzipiert (z. B. kontrafaktische Störung, Rollback, Mehrzustandskomposition), mit einer durchschnittlichen Abhängigkeitsspanne von 11,3 Interaktionen. Bei der Evaluierung von fünf hochmodernen Modellen stellen wir fest, dass das beste Modell nur eine durchschnittliche Genauigkeit von 48,45 % erreicht, die Leistung von frühen zu späten Interaktionen um fast 47 Punkte abfällt und langfristige Fehler 52 %–69 % der Fehlschläge ausmachen. Weitere Analysen zeigen, dass zusätzliche Agentenschritte nicht unbedingt die Leistung verbessern, was darauf hindeutet, dass der entscheidende Engpass eher in der Aufrechterhaltung eines korrekten analytischen Zustands als in der Erhöhung des Interaktionsbudgets liegt. Wir veröffentlichen LongDS, um die Forschung zu zuverlässiger langfristiger agentischer Datenanalyse zu unterstützen. Code und Daten werden unter https://github.com/zjunlp/DataMind veröffentlicht.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.