Kunnen AI-agents uw gegevensvragen beantwoorden? Een benchmark voor data-agents

Samenvatting

Gebruikers in bedrijven vertrouwen steeds meer op AI-agenten om hun data te bevragen via natuurlijke taal. Het bouwen van betrouwbare data-agenten blijft echter moeilijk, omdat real-world data vaak versnipperd is over meerdere heterogene databasesystemen, met inconsistente verwijzingen en informatie die verborgen ligt in ongestructureerde tekst. Bestaande benchmarks pakken slechts afzonderlijke delen van dit probleem aan – bijvoorbeeld het vertalen van vragen in natuurlijke taal naar SQL-query's, of het beantwoorden van vragen over kleine tabellen die in de context worden meegeleverd – maar evalueren niet de volledige pijplijn van het integreren, transformeren en analyseren van data over meerdere databasesystemen heen. Om deze leemte op te vullen, presenteren we de Data Agent Benchmark (DAB), die is gebaseerd op een vormende studie van workloads voor enterprise data-agenten in zes industrieën. DAB omvat 54 query's verspreid over 12 datasets, 9 domeinen en 4 databasebeheersystemen. Op DAB behaalt het beste frontier-model (Gemini-3-Pro) slechts 38% pass@1-nauwkeurigheid. We benchmarken vijf frontier-LLM's, analyseren hun faalmodi en destilleren inzichten voor de toekomstige ontwikkeling van data-agenten. Onze benchmark en experimentcode zijn gepubliceerd op github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Kunnen AI-agents uw gegevensvragen beantwoorden? Een benchmark voor data-agents

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Samenvatting

Support