ChatPaper.aiChatPaper

BIRD-INTERACT: Reimaginando a Avaliação de Texto para SQL em Modelos de Linguagem de Grande Escala através da Lente das Interações Dinâmicas

BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

October 6, 2025
Autores: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho notável em tarefas de texto para SQL de turno único, mas aplicações de banco de dados do mundo real predominantemente exigem interações multi-turno para lidar com consultas ambíguas, erros de execução e requisitos de usuário em evolução. Os benchmarks multi-turno existentes ficam aquém ao tratar históricos de conversa como contexto estático ou limitar a avaliação a operações somente leitura, falhando em refletir os desafios de assistentes de banco de dados de nível de produção. Introduzimos o BIRD-INTERACT, um benchmark que restaura esse realismo através de: (1) um ambiente de interação abrangente que acopla cada banco de dados a uma base de conhecimento hierárquica, arquivos de metadados e um simulador de usuário orientado por funções, permitindo que os modelos solicitem esclarecimentos, recuperem conhecimento e se recuperem de erros sem supervisão humana; (2) duas configurações de avaliação consistindo em um protocolo conversacional pré-definido (c-Interact) e uma configuração agêntica de final aberto (a-Interact) onde os modelos decidem autonomamente quando consultar o simulador de usuário ou explorar o ambiente; (3) um conjunto de tarefas desafiadoras cobrindo todo o espectro CRUD para casos de uso de inteligência de negócios e operacionais, protegido por casos de teste executáveis. Cada tarefa apresenta sub-tarefas ambíguas e de acompanhamento que exigem interação dinâmica. O conjunto compreende o BIRD-INTERACT-FULL (600 tarefas, até 11.796 interações) para avaliação abrangente de desempenho, e o BIRD-INTERACT-LITE (300 tarefas com bancos de dados simplificados) para análise detalhada de comportamento e desenvolvimento rápido de métodos. Nossos resultados empíricos destacam a dificuldade do BIRD-INTERACT: o GPT-5 completa apenas 8,67% das tarefas no c-Interact e 17,00% no a-Interact. A análise via enxerto de memória e Escalonamento de Teste de Interação valida a importância da interação eficaz para tarefas complexas e dinâmicas de texto para SQL.
English
Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.
PDF212October 8, 2025