ChatPaper.aiChatPaper

BIRD-INTERACT: Replanteando la Evaluación de Texto a SQL para Modelos de Lenguaje Grande a través de la Lente de Interacciones Dinámicas

BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

October 6, 2025
Autores: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de múltiples turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia existentes para interacciones de múltiples turnos se quedan cortos al tratar los historiales de conversación como contexto estático o limitar la evaluación a operaciones de solo lectura, sin reflejar los desafíos de los asistentes de bases de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo mediante: (1) un entorno de interacción completo que acopla cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario impulsado por funciones, permitiendo que los modelos soliciten aclaraciones, recuperen conocimiento y se recuperen de errores sin supervisión humana; (2) dos configuraciones de evaluación que consisten en un protocolo conversacional predefinido (c-Interact) y un entorno agéntico de final abierto (a-Interact) donde los modelos deciden autónomamente cuándo consultar al simulador de usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubren todo el espectro CRUD para casos de uso de inteligencia empresarial y operativos, protegidos por casos de prueba ejecutables. Cada tarea incluye subtareas ambiguas y de seguimiento que requieren interacción dinámica. El conjunto comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del rendimiento, y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis detallado del comportamiento y un desarrollo rápido de métodos. Nuestros resultados empíricos destacan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8.67% de las tareas en c-Interact y el 17.00% en a-Interact. El análisis mediante injerto de memoria y Escalado en Tiempo de Prueba de Interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.
PDF142October 8, 2025