LongDS-Bench: Sobre el fracaso del análisis de datos agéntico de largo horizonte

Resumen

El análisis de datos del mundo real es inherentemente iterativo, sin embargo, los benchmarks existentes evalúan principalmente tareas interactivas aisladas o de corta duración, dejando sin probar la capacidad de los agentes para rastrear contextos analíticos en evolución en horizontes prolongados. Presentamos LongDS, un benchmark para el análisis de datos de múltiples turnos y horizonte largo, en el que los agentes deben mantener, actualizar, restaurar y componer estados analíticos en evolución. LongDS consta de 68 tareas construidas a partir de cuadernos reales de Kaggle, que abarcan 2225 turnos en seis dominios, incluyendo Geociencia, Negocios y Educación. Las tareas se diseñan en torno a patrones de evolución de estados (por ejemplo, perturbación contrafactual, retroceso, composición multiestado) con un rango de dependencia promedio de 11.3 turnos. Al evaluar cinco modelos de última generación, encontramos que el mejor modelo alcanza solo un 48.45% de precisión promedio, el rendimiento cae casi 47 puntos desde los turnos iniciales hasta los finales, y los errores de horizonte largo representan del 52% al 69% de los fallos. Un análisis adicional muestra que los pasos adicionales del agente no necesariamente mejoran el rendimiento, lo que sugiere que el cuello de botella clave es mantener un estado analítico correcto, más que aumentar el presupuesto de interacción. Publicamos LongDS para apoyar la investigación sobre el análisis de datos agentivo confiable en horizontes largos. El código y los datos se publicarán en https://github.com/zjunlp/DataMind.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.