BIRD-INTERACT: Replanteando la Evaluación de Texto a SQL para Modelos de Lenguaje Grande a través de la Lente de Interacciones Dinámicas

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de múltiples turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia existentes para interacciones de múltiples turnos se quedan cortos al tratar los historiales de conversación como contexto estático o limitar la evaluación a operaciones de solo lectura, sin reflejar los desafíos de los asistentes de bases de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo mediante: (1) un entorno de interacción completo que acopla cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario impulsado por funciones, permitiendo que los modelos soliciten aclaraciones, recuperen conocimiento y se recuperen de errores sin supervisión humana; (2) dos configuraciones de evaluación que consisten en un protocolo conversacional predefinido (c-Interact) y un entorno agéntico de final abierto (a-Interact) donde los modelos deciden autónomamente cuándo consultar al simulador de usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubren todo el espectro CRUD para casos de uso de inteligencia empresarial y operativos, protegidos por casos de prueba ejecutables. Cada tarea incluye subtareas ambiguas y de seguimiento que requieren interacción dinámica. El conjunto comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del rendimiento, y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis detallado del comportamiento y un desarrollo rápido de métodos. Nuestros resultados empíricos destacan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8.67% de las tareas en c-Interact y el 17.00% en a-Interact. El análisis mediante injerto de memoria y Escalado en Tiempo de Prueba de Interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.

English

Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.