Могут ли ИИ-агенты отвечать на ваши вопросы о данных? Бенчмарк для дата-агентов

Аннотация

Пользователи в корпоративной среде всё чаще полагаются на ИИ-агентов для запросов к своим данным на естественном языке. Однако создание надежных агентов для работы с данными остается сложной задачей, поскольку реальные данные часто фрагментированы между множеством гетерогенных систем баз данных, содержат несогласованные ссылки, а информация скрыта в неструктурированном тексте. Существующие бенчмарки решают лишь отдельные аспекты этой проблемы — например, перевод вопросов с естественного языка в SQL-запросы или ответы на вопросы по небольшим таблицам, предоставленным в контексте, — но не оценивают полный цикл интеграции, преобразования и анализа данных из нескольких систем баз данных. Чтобы заполнить этот пробел, мы представляем бенчмарк Data Agent Benchmark (DAB), основанный на формирующем исследовании нагрузок корпоративных агентов данных в шести отраслях. DAB включает 54 запроса к 12 наборам данных, 9 доменам и 4 системам управления базами данных. На этом бенчмарке лучшая передовая модель (Gemini-3-Pro) демонстрирует точность pass@1 всего 38%. Мы тестируем пять передовых больших языковых моделей, анализируем типичные ошибки и формулируем выводы для будущей разработки агентов данных. Наш бенчмарк и код экспериментов опубликованы на github.com/ucbepic/DataAgentBench.

English

Users across enterprises increasingly rely on AI agents to query their data through natural language. However, building reliable data agents remains difficult because real-world data is often fragmented across multiple heterogeneous database systems, with inconsistent references and information buried in unstructured text. Existing benchmarks only tackle individual pieces of this problem -- e.g., translating natural-language questions into SQL queries, answering questions over small tables provided in context -- but do not evaluate the full pipeline of integrating, transforming, and analyzing data across multiple database systems. To fill this gap, we present the Data Agent Benchmark (DAB), grounded in a formative study of enterprise data agent workloads across six industries. DAB comprises 54 queries across 12 datasets, 9 domains, and 4 database management systems. On DAB, the best frontier model (Gemini-3-Pro) achieves only 38% pass@1 accuracy. We benchmark five frontier LLMs, analyze their failure modes, and distill takeaways for future data agent development. Our benchmark and experiment code are published at github.com/ucbepic/DataAgentBench.

Могут ли ИИ-агенты отвечать на ваши вопросы о данных? Бенчмарк для дата-агентов

Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Аннотация

Support