BIRD-INTERACT: Replanteando la Evaluación de Texto a SQL para Modelos de Lenguaje Grande a través de la Lente de Interacciones Dinámicas
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
October 6, 2025
Autores: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de múltiples turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia existentes para interacciones de múltiples turnos se quedan cortos al tratar los historiales de conversación como contexto estático o limitar la evaluación a operaciones de solo lectura, sin reflejar los desafíos de los asistentes de bases de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo mediante: (1) un entorno de interacción completo que acopla cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario impulsado por funciones, permitiendo que los modelos soliciten aclaraciones, recuperen conocimiento y se recuperen de errores sin supervisión humana; (2) dos configuraciones de evaluación que consisten en un protocolo conversacional predefinido (c-Interact) y un entorno agéntico de final abierto (a-Interact) donde los modelos deciden autónomamente cuándo consultar al simulador de usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubren todo el espectro CRUD para casos de uso de inteligencia empresarial y operativos, protegidos por casos de prueba ejecutables. Cada tarea incluye subtareas ambiguas y de seguimiento que requieren interacción dinámica. El conjunto comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del rendimiento, y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis detallado del comportamiento y un desarrollo rápido de métodos. Nuestros resultados empíricos destacan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8.67% de las tareas en c-Interact y el 17.00% en a-Interact. El análisis mediante injerto de memoria y Escalado en Tiempo de Prueba de Interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on
single-turn text-to-SQL tasks, but real-world database applications
predominantly require multi-turn interactions to handle ambiguous queries,
execution errors, and evolving user requirements. Existing multi-turn
benchmarks fall short by treating conversation histories as static context or
limiting evaluation to read-only operations, failing to reflect
production-grade database assistant challenges. We introduce BIRD-INTERACT, a
benchmark that restores this realism through: (1) a comprehensive interaction
environment coupling each database with a hierarchical knowledge base, metadata
files, and a function-driven user simulator, enabling models to solicit
clarifications, retrieve knowledge, and recover from errors without human
supervision; (2) two evaluation settings consisting of a pre-defined
conversational protocol (c-Interact) and an open-ended agentic setting
(a-Interact) where models autonomously decide when to query the user simulator
or explore the environment; (3) a challenging task suite covering the full CRUD
spectrum for business-intelligence and operational use cases, guarded by
executable test cases. Each task features ambiguous and follow-up sub-tasks
requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600
tasks, up to 11,796 interactions) for comprehensive performance assessment, and
BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed
behavioral analysis and rapid method development. Our empirical results
highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in
c-Interact and 17.00% in a-Interact. Analysis via memory grafting and
Interaction Test-time Scaling validates the importance of effective interaction
for complex, dynamic text-to-SQL tasks.