BIRD-INTERACT: Переосмысление оценки Text-to-SQL для крупных языковых моделей через призму динамических взаимодействий

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в задачах однократного преобразования текста в SQL, однако реальные приложения баз данных преимущественно требуют многошаговых взаимодействий для обработки неоднозначных запросов, ошибок выполнения и изменяющихся требований пользователей. Существующие бенчмарки для многошаговых взаимодействий не соответствуют реальным условиям, рассматривая историю диалога как статический контекст или ограничивая оценку операциями только для чтения, что не отражает сложностей, с которыми сталкиваются ассистенты баз данных в производственной среде. Мы представляем BIRD-INTERACT — бенчмарк, который восстанавливает реализм за счет: (1) комплексной среды взаимодействия, объединяющей каждую базу данных с иерархической базой знаний, метаданными и симулятором пользователя, управляемым функциями, что позволяет моделям запрашивать уточнения, извлекать знания и восстанавливаться после ошибок без участия человека; (2) двух режимов оценки, включающих предопределенный протокол взаимодействия (c-Interact) и открытый агентский режим (a-Interact), где модели самостоятельно решают, когда обращаться к симулятору пользователя или исследовать среду; (3) сложного набора задач, охватывающего весь спектр CRUD для бизнес-аналитики и операционных сценариев, защищенных исполняемыми тестовыми случаями. Каждая задача включает неоднозначные и последующие подзадачи, требующие динамического взаимодействия. Набор включает BIRD-INTERACT-FULL (600 задач, до 11 796 взаимодействий) для всесторонней оценки производительности и BIRD-INTERACT-LITE (300 задач с упрощенными базами данных) для детального анализа поведения и быстрой разработки методов. Наши эмпирические результаты подчеркивают сложность BIRD-INTERACT: GPT-5 завершает только 8,67% задач в c-Interact и 17,00% в a-Interact. Анализ с использованием методов memory grafting и Interaction Test-time Scaling подтверждает важность эффективного взаимодействия для сложных и динамических задач преобразования текста в SQL.

English

Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.