BIRD-INTERACT: Neugestaltung der Text-to-SQL-Evaluierung für große Sprachmodelle durch die Linse dynamischer Interaktionen
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
October 6, 2025
papers.authors: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Single-Turn-Text-to-SQL-Aufgaben gezeigt, doch reale Datenbankanwendungen erfordern überwiegend mehrschrittige Interaktionen, um mehrdeutige Anfragen, Ausführungsfehler und sich entwickelnde Benutzeranforderungen zu bewältigen. Bestehende Multi-Turn-Benchmarks sind unzureichend, da sie Konversationsverläufe als statischen Kontext behandeln oder die Bewertung auf schreibgeschützte Operationen beschränken, wodurch sie die Herausforderungen von produktionsreifen Datenbankassistenten nicht widerspiegeln. Wir stellen BIRD-INTERACT vor, einen Benchmark, der diesen Realismus durch folgende Aspekte wiederherstellt: (1) eine umfassende Interaktionsumgebung, die jede Datenbank mit einer hierarchischen Wissensdatenbank, Metadatendateien und einem funktionsgesteuerten Benutzersimulator koppelt, wodurch Modelle in der Lage sind, Klärungen einzuholen, Wissen abzurufen und Fehler ohne menschliche Aufsicht zu beheben; (2) zwei Bewertungsszenarien, bestehend aus einem vordefinierten Konversationsprotokoll (c-Interact) und einem offenen agentenbasierten Szenario (a-Interact), in dem Modelle autonom entscheiden, wann sie den Benutzersimulator abfragen oder die Umgebung erkunden sollen; (3) eine anspruchsvolle Aufgabenpalette, die das gesamte CRUD-Spektrum für Business-Intelligence- und operative Anwendungsfälle abdeckt, gesichert durch ausführbare Testfälle. Jede Aufgabe umfasst mehrdeutige und nachfolgende Teilaufgaben, die dynamische Interaktion erfordern. Die Palette besteht aus BIRD-INTERACT-FULL (600 Aufgaben, bis zu 11.796 Interaktionen) für eine umfassende Leistungsbewertung und BIRD-INTERACT-LITE (300 Aufgaben mit vereinfachten Datenbanken) für detaillierte Verhaltensanalysen und schnelle Methodenentwicklung. Unsere empirischen Ergebnisse unterstreichen die Schwierigkeit von BIRD-INTERACT: GPT-5 schließt nur 8,67 % der Aufgaben in c-Interact und 17,00 % in a-Interact ab. Analysen mittels Memory Grafting und Interaction Test-time Scaling bestätigen die Bedeutung effektiver Interaktion für komplexe, dynamische Text-to-SQL-Aufgaben.
English
Large language models (LLMs) have demonstrated remarkable performance on
single-turn text-to-SQL tasks, but real-world database applications
predominantly require multi-turn interactions to handle ambiguous queries,
execution errors, and evolving user requirements. Existing multi-turn
benchmarks fall short by treating conversation histories as static context or
limiting evaluation to read-only operations, failing to reflect
production-grade database assistant challenges. We introduce BIRD-INTERACT, a
benchmark that restores this realism through: (1) a comprehensive interaction
environment coupling each database with a hierarchical knowledge base, metadata
files, and a function-driven user simulator, enabling models to solicit
clarifications, retrieve knowledge, and recover from errors without human
supervision; (2) two evaluation settings consisting of a pre-defined
conversational protocol (c-Interact) and an open-ended agentic setting
(a-Interact) where models autonomously decide when to query the user simulator
or explore the environment; (3) a challenging task suite covering the full CRUD
spectrum for business-intelligence and operational use cases, guarded by
executable test cases. Each task features ambiguous and follow-up sub-tasks
requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600
tasks, up to 11,796 interactions) for comprehensive performance assessment, and
BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed
behavioral analysis and rapid method development. Our empirical results
highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in
c-Interact and 17.00% in a-Interact. Analysis via memory grafting and
Interaction Test-time Scaling validates the importance of effective interaction
for complex, dynamic text-to-SQL tasks.