LongDS-Bench: Sobre o Fracasso da Análise de Dados Agêntica de Longo Horizonte

Resumo

A análise de dados do mundo real é inerentemente iterativa, no entanto, os benchmarks existentes avaliam principalmente tarefas interativas isoladas ou curtas, deixando sem testar a capacidade dos agentes de acompanhar o contexto analítico em evolução ao longo de horizontes longos. Apresentamos o LongDS, um benchmark para análise de dados multietapas e de longo horizonte, no qual os agentes devem manter, atualizar, restaurar e compor estados analíticos em evolução. O LongDS compreende 68 tarefas construídas a partir de cadernos reais do Kaggle, abrangendo 2.225 rodadas em seis domínios, incluindo Geociências, Negócios e Educação. As tarefas são projetadas em torno de padrões de evolução de estado (por exemplo, perturbação contrafactual, reversão, composição de múltiplos estados), com um intervalo médio de dependência de 11,3 rodadas. Avaliando cinco modelos de última geração, constatamos que o melhor modelo atinge apenas 48,45% de acurácia média, o desempenho cai quase 47 pontos percentuais das primeiras para as últimas rodadas, e os erros de longo horizonte respondem por 52%–69% das falhas. Análises adicionais mostram que passos adicionais do agente não necessariamente melhoram o desempenho, sugerindo que o gargalo principal é manter um estado analítico correto, e não aumentar o orçamento de interação. Disponibilizamos o LongDS para apoiar pesquisas sobre análise de dados agentiva confiável em horizontes longos. O código e os dados serão disponibilizados em https://github.com/zjunlp/DataMind.

English

Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.