BIRD-INTERACT: Heruitvinden van Text-to-SQL-evaluatie voor Grote Taalmodellen via de Lens van Dynamische Interacties
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
October 6, 2025
Auteurs: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd bij enkelvoudige tekst-naar-SQL taken, maar real-world database-applicaties vereisen voornamelijk meervoudige interacties om ambiguïteit in queries, uitvoeringsfouten en veranderende gebruikersbehoeften te hanteren. Bestaande benchmarks voor meervoudige interacties schieten tekort door conversatiegeschiedenissen als statische context te behandelen of de evaluatie te beperken tot alleen-lezen operaties, waardoor ze de uitdagingen van productieklasse database-assistenten niet weerspiegelen. Wij introduceren BIRD-INTERACT, een benchmark die deze realiteit herstelt door: (1) een uitgebreide interactieomgeving die elke database koppelt aan een hiërarchische kennisbank, metadata-bestanden en een functiegedreven gebruikerssimulator, waardoor modellen in staat zijn om verduidelijkingen te vragen, kennis op te halen en fouten te herstellen zonder menselijk toezicht; (2) twee evaluatie-instellingen bestaande uit een vooraf gedefinieerd conversatieprotocol (c-Interact) en een open-ended agentische instelling (a-Interact) waarin modellen autonoom beslissen wanneer ze de gebruikerssimulator moeten bevragen of de omgeving moeten verkennen; (3) een uitdagende taakset die het volledige CRUD-spectrum beslaat voor business-intelligence en operationele use cases, bewaakt door uitvoerbare testcases. Elke taak bevat ambiguïteit en vervolgsubtaken die dynamische interactie vereisen. De set bestaat uit BIRD-INTERACT-FULL (600 taken, tot 11.796 interacties) voor uitgebreide prestatiebeoordeling, en BIRD-INTERACT-LITE (300 taken met vereenvoudigde databases) voor gedetailleerde gedragsanalyse en snelle methodeontwikkeling. Onze empirische resultaten benadrukken de moeilijkheidsgraad van BIRD-INTERACT: GPT-5 voltooit slechts 8,67% van de taken in c-Interact en 17,00% in a-Interact. Analyse via geheugentransplantatie en Interaction Test-time Scaling bevestigt het belang van effectieve interactie voor complexe, dynamische tekst-naar-SQL taken.
English
Large language models (LLMs) have demonstrated remarkable performance on
single-turn text-to-SQL tasks, but real-world database applications
predominantly require multi-turn interactions to handle ambiguous queries,
execution errors, and evolving user requirements. Existing multi-turn
benchmarks fall short by treating conversation histories as static context or
limiting evaluation to read-only operations, failing to reflect
production-grade database assistant challenges. We introduce BIRD-INTERACT, a
benchmark that restores this realism through: (1) a comprehensive interaction
environment coupling each database with a hierarchical knowledge base, metadata
files, and a function-driven user simulator, enabling models to solicit
clarifications, retrieve knowledge, and recover from errors without human
supervision; (2) two evaluation settings consisting of a pre-defined
conversational protocol (c-Interact) and an open-ended agentic setting
(a-Interact) where models autonomously decide when to query the user simulator
or explore the environment; (3) a challenging task suite covering the full CRUD
spectrum for business-intelligence and operational use cases, guarded by
executable test cases. Each task features ambiguous and follow-up sub-tasks
requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600
tasks, up to 11,796 interactions) for comprehensive performance assessment, and
BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed
behavioral analysis and rapid method development. Our empirical results
highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in
c-Interact and 17.00% in a-Interact. Analysis via memory grafting and
Interaction Test-time Scaling validates the importance of effective interaction
for complex, dynamic text-to-SQL tasks.