BIRD-INTERACT : Réinventer l'évaluation Text-to-SQL pour les grands modèles de langage à travers le prisme des interactions dynamiques
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
October 6, 2025
papers.authors: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans les tâches de conversion texte-SQL en une seule étape, mais les applications de bases de données réelles nécessitent principalement des interactions multi-tours pour gérer les requêtes ambiguës, les erreurs d'exécution et les exigences évolutives des utilisateurs. Les benchmarks multi-tours existants sont insuffisants en traitant les historiques de conversation comme un contexte statique ou en limitant l'évaluation à des opérations en lecture seule, ne reflétant pas les défis des assistants de bases de données de niveau production. Nous introduisons BIRD-INTERACT, un benchmark qui rétablit ce réalisme grâce à : (1) un environnement d'interaction complet couplant chaque base de données à une base de connaissances hiérarchique, des fichiers de métadonnées et un simulateur d'utilisateur piloté par des fonctions, permettant aux modèles de solliciter des clarifications, de récupérer des connaissances et de se remettre des erreurs sans supervision humaine ; (2) deux configurations d'évaluation consistant en un protocole conversationnel prédéfini (c-Interact) et un cadre agentique ouvert (a-Interact) où les modèles décident de manière autonome quand interroger le simulateur d'utilisateur ou explorer l'environnement ; (3) une suite de tâches complexes couvrant le spectre complet CRUD pour des cas d'utilisation en intelligence d'affaires et opérationnels, protégés par des cas de test exécutables. Chaque tâche comprend des sous-tâches ambiguës et de suivi nécessitant une interaction dynamique. La suite comprend BIRD-INTERACT-FULL (600 tâches, jusqu'à 11 796 interactions) pour une évaluation complète des performances, et BIRD-INTERACT-LITE (300 tâches avec des bases de données simplifiées) pour une analyse comportementale détaillée et un développement rapide de méthodes. Nos résultats empiriques soulignent la difficulté de BIRD-INTERACT : GPT-5 ne complète que 8,67 % des tâches en c-Interact et 17,00 % en a-Interact. L'analyse via le greffage de mémoire et la mise à l'échelle au moment du test d'interaction valide l'importance d'une interaction efficace pour les tâches complexes et dynamiques de conversion texte-SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on
single-turn text-to-SQL tasks, but real-world database applications
predominantly require multi-turn interactions to handle ambiguous queries,
execution errors, and evolving user requirements. Existing multi-turn
benchmarks fall short by treating conversation histories as static context or
limiting evaluation to read-only operations, failing to reflect
production-grade database assistant challenges. We introduce BIRD-INTERACT, a
benchmark that restores this realism through: (1) a comprehensive interaction
environment coupling each database with a hierarchical knowledge base, metadata
files, and a function-driven user simulator, enabling models to solicit
clarifications, retrieve knowledge, and recover from errors without human
supervision; (2) two evaluation settings consisting of a pre-defined
conversational protocol (c-Interact) and an open-ended agentic setting
(a-Interact) where models autonomously decide when to query the user simulator
or explore the environment; (3) a challenging task suite covering the full CRUD
spectrum for business-intelligence and operational use cases, guarded by
executable test cases. Each task features ambiguous and follow-up sub-tasks
requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600
tasks, up to 11,796 interactions) for comprehensive performance assessment, and
BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed
behavioral analysis and rapid method development. Our empirical results
highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in
c-Interact and 17.00% in a-Interact. Analysis via memory grafting and
Interaction Test-time Scaling validates the importance of effective interaction
for complex, dynamic text-to-SQL tasks.