¿Pueden los agentes de IA responder sus preguntas sobre datos? Un punto de referencia para agentes de datos

Resumen

Los usuarios empresariales dependen cada vez más de agentes de IA para consultar sus datos mediante lenguaje natural. Sin embargo, construir agentes de datos confiables sigue siendo difícil porque los datos del mundo real a menudo están fragmentados en múltiples sistemas de bases de datos heterogéneos, con referencias inconsistentes e información enterrada en texto no estructurado. Los puntos de referencia existentes solo abordan partes aisladas de este problema —por ejemplo, traducir preguntas en lenguaje natural a consultas SQL, responder preguntas sobre tablas pequeñas proporcionadas en contexto— pero no evalúan la canalización completa de integrar, transformar y analizar datos a través de múltiples sistemas de bases de datos. Para llenar este vacío, presentamos el Data Agent Benchmark (DAB), basado en un estudio formativo de las cargas de trabajo de agentes de datos empresariales en seis industrias. El DAB comprende 54 consultas distribuidas en 12 conjuntos de datos, 9 dominios y 4 sistemas de gestión de bases de datos. En el DAB, el mejor modelo de vanguardia (Gemini-3-Pro) alcanza solo un 38% de precisión pass@1. Evaluamos cinco LLMs de vanguardia, analizamos sus modos de fallo y extraemos conclusiones para el futuro desarrollo de agentes de datos. Nuestro punto de referencia y el código de los experimentos se publican en github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

¿Pueden los agentes de IA responder sus preguntas sobre datos? Un punto de referencia para agentes de datos

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Resumen

Support