Gli agenti di intelligenza artificiale possono rispondere alle vostre domande sui dati? Un benchmark per gli agenti di dati

Abstract

Gli utenti all'interno delle aziende si affidano sempre più ad agenti di IA per interrogare i propri dati tramite linguaggio naturale. Tuttavia, costruire agenti di dati affidabili rimane difficile perché i dati del mondo reale sono spesso frammentati tra molteplici sistemi di database eterogenei, con riferimenti inconsistenti e informazioni sepolte in testo non strutturato. I benchmark esistenti affrontano solo parti isolate di questo problema – ad esempio, tradurre domande in linguaggio naturale in query SQL, rispondere a domande su piccole tabelle fornite nel contesto – ma non valutano l'intera pipeline di integrazione, trasformazione e analisi dei dati attraverso più sistemi di database. Per colmare questa lacuna, presentiamo il Data Agent Benchmark (DAB), basato su uno studio formativo sui carichi di lavoro degli agenti di dati aziendali in sei settori industriali. Il DAB comprende 54 query su 12 dataset, 9 domini e 4 sistemi di gestione di database. Sul DAB, il miglior modello di frontiera (Gemini-3-Pro) raggiunge solo una precisione pass@1 del 38%. Mettiamo a confronto cinque LLM di frontiera, analizziamo le loro modalità di fallimento e distilliamo considerazioni per lo sviluppo futuro degli agenti di dati. Il nostro benchmark e il codice degli esperimenti sono pubblicati su github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Gli agenti di intelligenza artificiale possono rispondere alle vostre domande sui dati? Un benchmark per gli agenti di dati

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Abstract

Support