BIRD-INTERACT: Переосмысление оценки Text-to-SQL для крупных языковых моделей через призму динамических взаимодействий
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
October 6, 2025
Авторы: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в задачах однократного преобразования текста в SQL, однако реальные приложения баз данных преимущественно требуют многошаговых взаимодействий для обработки неоднозначных запросов, ошибок выполнения и изменяющихся требований пользователей. Существующие бенчмарки для многошаговых взаимодействий не соответствуют реальным условиям, рассматривая историю диалога как статический контекст или ограничивая оценку операциями только для чтения, что не отражает сложностей, с которыми сталкиваются ассистенты баз данных в производственной среде. Мы представляем BIRD-INTERACT — бенчмарк, который восстанавливает реализм за счет: (1) комплексной среды взаимодействия, объединяющей каждую базу данных с иерархической базой знаний, метаданными и симулятором пользователя, управляемым функциями, что позволяет моделям запрашивать уточнения, извлекать знания и восстанавливаться после ошибок без участия человека; (2) двух режимов оценки, включающих предопределенный протокол взаимодействия (c-Interact) и открытый агентский режим (a-Interact), где модели самостоятельно решают, когда обращаться к симулятору пользователя или исследовать среду; (3) сложного набора задач, охватывающего весь спектр CRUD для бизнес-аналитики и операционных сценариев, защищенных исполняемыми тестовыми случаями. Каждая задача включает неоднозначные и последующие подзадачи, требующие динамического взаимодействия. Набор включает BIRD-INTERACT-FULL (600 задач, до 11 796 взаимодействий) для всесторонней оценки производительности и BIRD-INTERACT-LITE (300 задач с упрощенными базами данных) для детального анализа поведения и быстрой разработки методов. Наши эмпирические результаты подчеркивают сложность BIRD-INTERACT: GPT-5 завершает только 8,67% задач в c-Interact и 17,00% в a-Interact. Анализ с использованием методов memory grafting и Interaction Test-time Scaling подтверждает важность эффективного взаимодействия для сложных и динамических задач преобразования текста в SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on
single-turn text-to-SQL tasks, but real-world database applications
predominantly require multi-turn interactions to handle ambiguous queries,
execution errors, and evolving user requirements. Existing multi-turn
benchmarks fall short by treating conversation histories as static context or
limiting evaluation to read-only operations, failing to reflect
production-grade database assistant challenges. We introduce BIRD-INTERACT, a
benchmark that restores this realism through: (1) a comprehensive interaction
environment coupling each database with a hierarchical knowledge base, metadata
files, and a function-driven user simulator, enabling models to solicit
clarifications, retrieve knowledge, and recover from errors without human
supervision; (2) two evaluation settings consisting of a pre-defined
conversational protocol (c-Interact) and an open-ended agentic setting
(a-Interact) where models autonomously decide when to query the user simulator
or explore the environment; (3) a challenging task suite covering the full CRUD
spectrum for business-intelligence and operational use cases, guarded by
executable test cases. Each task features ambiguous and follow-up sub-tasks
requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600
tasks, up to 11,796 interactions) for comprehensive performance assessment, and
BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed
behavioral analysis and rapid method development. Our empirical results
highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in
c-Interact and 17.00% in a-Interact. Analysis via memory grafting and
Interaction Test-time Scaling validates the importance of effective interaction
for complex, dynamic text-to-SQL tasks.