Os Agentes de IA Podem Responder às Suas Perguntas sobre Dados? Um Benchmark para Agentes de Dados

Resumo

Os utilizadores em empresas dependem cada vez mais de agentes de IA para consultar os seus dados através de linguagem natural. No entanto, a criação de agentes de dados fiáveis continua a ser difícil porque os dados do mundo real estão frequentemente fragmentados em múltiplos sistemas de bases de dados heterogéneos, com referências inconsistentes e informação enterrada em texto não estruturado. As referências existentes apenas abordam partes isoladas deste problema – por exemplo, traduzir perguntas em linguagem natural para consultas SQL, responder a perguntas sobre pequenas tabelas fornecidas em contexto – mas não avaliam o *pipeline* completo de integrar, transformar e analisar dados em vários sistemas de bases de dados. Para colmatar esta lacuna, apresentamos o *Data Agent Benchmark* (DAB), baseado num estudo formativo de cargas de trabalho de agentes de dados empresariais em seis indústrias. O DAB compreende 54 consultas em 12 conjuntos de dados, 9 domínios e 4 sistemas de gestão de bases de dados. No DAB, o melhor modelo de fronteira (Gemini-3-Pro) atinge apenas 38% de precisão *pass@1*. Avaliamos cinco *LLMs* de fronteira, analisamos os seus modos de falha e extraímos conclusões para o futuro desenvolvimento de agentes de dados. A nossa referência e o código experimental são publicados em github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Os Agentes de IA Podem Responder às Suas Perguntas sobre Dados? Um Benchmark para Agentes de Dados

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Resumo

Support