ChatPaper.aiChatPaper

SWE-SQL: Iluminando os Caminhos dos LLMs para Resolver Problemas de SQL dos Usuários em Aplicações do Mundo Real

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

June 23, 2025
Autores: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI

Resumo

A resolução de problemas complexos de SQL continua sendo um gargalo significativo em aplicações de banco de dados do mundo real. Os atuais Modelos de Linguagem de Grande Escala (LLMs), embora habilidosos na tradução de texto para SQL, não foram rigorosamente avaliados na tarefa mais desafiadora de depuração de problemas de SQL. Para preencher essa lacuna, introduzimos o BIRD-CRITIC, um novo benchmark de depuração de problemas de SQL composto por 530 tarefas PostgreSQL (BIRD-CRITIC-PG) e 570 tarefas multi-dialeto (BIRD-CRITIC-Multi), extraídas de problemas reais de usuários e reproduzidas em novos ambientes para facilitar uma avaliação rigorosa. As avaliações de base destacam a complexidade da tarefa, com o modelo de raciocínio líder O3-Mini alcançando apenas 38,87% de taxa de sucesso no BIRD-CRITIC-PG e 33,33% no BIRD-CRITIC-Multi. Enquanto isso, avançar modelos de código aberto para tarefas de banco de dados é crucial para capacitar o desenvolvimento local enquanto protege a privacidade dos dados. Portanto, apresentamos o Six-Gym (Sql-fIX-Gym), um ambiente de treinamento para elevar as capacidades de modelos de código aberto na depuração de problemas de SQL. Este ambiente aproveita a estratégia SQL-Rewind, que gera automaticamente conjuntos de dados executáveis de problemas-soluções ao fazer engenharia reversa de problemas a partir de SQLs verificados. No entanto, métodos populares de ajuste fino baseados em trajetória não exploram sinais supervisionais substanciais. Propomos ainda o f-Plan Boosting, que extrai planos de depuração de alto nível a partir de soluções SQL, permitindo que LLMs professores produzam 73,7% mais trajetórias bem-sucedidas para treinamento. Integramos esses componentes em um agente de código aberto, o Bird-Fixer. Baseado no Qwen-2.5-Coder-14B, o Bird-Fixer alcança 38,11% de taxa de sucesso no BIRD-CRITIC-PG e 29,65% no BIRD-CRITIC-Multi, superando modelos proprietários líderes como Claude-3.7-Sonnet e GPT-4.1, marcando um passo significativo em direção à democratização de capacidades sofisticadas de depuração de SQL. O leaderboard e o código-fonte estão disponíveis em: https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/
PDF211June 25, 2025