ChatPaper.aiChatPaper

BIRD-INTERACT: Ripensare la valutazione Text-to-SQL per i modelli linguistici di grandi dimensioni attraverso la lente delle interazioni dinamiche

BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

October 6, 2025
Autori: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di text-to-SQL a turno singolo, ma le applicazioni di database nel mondo reale richiedono prevalentemente interazioni multi-turno per gestire query ambigue, errori di esecuzione e requisiti utente in evoluzione. Gli attuali benchmark multi-turno sono carenti in quanto trattano le cronologie delle conversazioni come contesto statico o limitano la valutazione a operazioni di sola lettura, non riuscendo a riflettere le sfide degli assistenti di database di livello produttivo. Introduciamo BIRD-INTERACT, un benchmark che ripristina questo realismo attraverso: (1) un ambiente di interazione completo che accoppia ogni database con una base di conoscenza gerarchica, file di metadati e un simulatore utente guidato da funzioni, consentendo ai modelli di richiedere chiarimenti, recuperare conoscenze e riprendersi dagli errori senza supervisione umana; (2) due impostazioni di valutazione costituite da un protocollo conversazionale predefinito (c-Interact) e un contesto aperto e agentivo (a-Interact) in cui i modelli decidono autonomamente quando interrogare il simulatore utente o esplorare l'ambiente; (3) una suite di compiti impegnativi che coprono l'intero spettro CRUD per casi d'uso di business intelligence e operativi, protetti da casi di test eseguibili. Ogni compito presenta sotto-compiti ambigui e di follow-up che richiedono interazione dinamica. La suite comprende BIRD-INTERACT-FULL (600 compiti, fino a 11.796 interazioni) per una valutazione completa delle prestazioni, e BIRD-INTERACT-LITE (300 compiti con database semplificati) per un'analisi comportamentale dettagliata e uno sviluppo rapido dei metodi. I nostri risultati empirici evidenziano la difficoltà di BIRD-INTERACT: GPT-5 completa solo l'8,67% dei compiti in c-Interact e il 17,00% in a-Interact. L'analisi tramite innesto di memoria e ridimensionamento al momento del test di interazione conferma l'importanza di un'interazione efficace per compiti complessi e dinamici di text-to-SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.
PDF212October 8, 2025