Les agents d'IA peuvent-ils répondre à vos questions sur les données ? Un benchmark pour les agents de données

Résumé

Les utilisateurs en entreprise dépendent de plus en plus d'agents d'IA pour interroger leurs données en langage naturel. Cependant, la création d'agents de données fiables reste difficile car les données du monde réel sont souvent fragmentées entre plusieurs systèmes de bases de données hétérogènes, avec des références incohérentes et des informations enfouies dans du texte non structuré. Les benchmarks existants ne traitent que des aspects isolés de ce problème – par exemple, la traduction de questions en langage naturel en requêtes SQL, ou la réponse à des questions sur de petites tables fournies en contexte – mais n'évaluent pas le pipeline complet d'intégration, de transformation et d'analyse des données à travers plusieurs systèmes de bases de données. Pour combler cette lacune, nous présentons le Data Agent Benchmark (DAB), fondé sur une étude formative des charges de travail des agents de données en entreprise dans six industries. Le DAB comprend 54 requêtes réparties sur 12 jeux de données, 9 domaines et 4 systèmes de gestion de bases de données. Sur le DAB, le meilleur modèle frontalier (Gemini-3-Pro) n'atteint qu'une précision pass@1 de 38 %. Nous évaluons cinq LLM frontaliers, analysons leurs modes d'échec et tirons des enseignements pour le développement futur des agents de données. Notre benchmark et notre code expérimental sont publiés sur github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Les agents d'IA peuvent-ils répondre à vos questions sur les données ? Un benchmark pour les agents de données

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Résumé

Support