Können KI-Agenten Ihre Datenfragen beantworten? Ein Benchmark für Datenagenten

Zusammenfassung

Unternehmensweit nutzen Benutzer zunehmend KI-Agenten, um ihre Daten über natürliche Sprache abzufragen. Dennoch ist der Aufbau zuverlässiger Datenagenten nach wie vor schwierig, da reale Daten häufig fragmentiert über mehrere heterogene Datenbanksysteme verteilt sind, mit inkonsistenten Referenzen und Informationen, die in unstrukturiertem Text verborgen sind. Bestehende Benchmarks behandeln nur einzelne Teilaspekte dieses Problems – z.B. die Übersetzung von Fragen in natürlicher Sprache in SQL-Abfragen oder das Beantworten von Fragen über kleine, im Kontext bereitgestellte Tabellen – bewerten aber nicht die gesamte Pipeline zur Integration, Transformation und Analyse von Daten über mehrere Datenbanksysteme hinweg. Um diese Lücke zu schließen, präsentieren wir den Data Agent Benchmark (DAB), der auf einer formativen Studie von Datenagenten-Workloads aus sechs Branchen basiert. DAB umfasst 54 Abfragen über 12 Datensätze, 9 Domänen und 4 Datenbankmanagementsysteme hinweg. Auf DAB erreicht das beste Frontier-Modell (Gemini-3-Pro) nur eine pass@1-Genauigkeit von 38 %. Wir benchmarken fünf Frontier-LLMs, analysieren ihre Fehlermodi und destillieren Erkenntnisse für die zukünftige Entwicklung von Datenagenten. Unser Benchmark und unser Experimentiercode sind unter github.com/ucbepic/DataAgentBench veröffentlicht.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Können KI-Agenten Ihre Datenfragen beantworten? Ein Benchmark für Datenagenten

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Zusammenfassung

Support