SWE-SQL : Éclairer les voies des LLM pour résoudre les problèmes SQL des utilisateurs dans des applications réelles
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
June 23, 2025
Auteurs: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI
Résumé
La résolution de problèmes SQL complexes reste un goulot d'étranglement majeur dans les applications de bases de données réelles. Les modèles de langage à grande échelle (LLM) actuels, bien que compétents dans la traduction texte-SQL, n'ont pas été rigoureusement évalués sur la tâche plus complexe du débogage de problèmes SQL. Pour combler cette lacune, nous introduisons BIRD-CRITIC, un nouveau benchmark de débogage de problèmes SQL comprenant 530 tâches PostgreSQL (BIRD-CRITIC-PG) et 570 tâches multi-dialectes (BIRD-CRITIC-Multi), extraites de problèmes utilisateurs authentiques et rejouées dans de nouveaux environnements pour faciliter une évaluation rigoureuse. Les évaluations de base soulignent la complexité de la tâche, avec le modèle de raisonnement leader O3-Mini atteignant seulement un taux de réussite de 38,87 % sur BIRD-CRITIC-PG et 33,33 % sur BIRD-CRITIC-Multi. Par ailleurs, l'amélioration des modèles open-source pour les tâches de bases de données est cruciale pour renforcer le développement local tout en protégeant la confidentialité des données. Par conséquent, nous présentons Six-Gym (Sql-fIX-Gym), un environnement d'entraînement pour améliorer les capacités des modèles open-source dans le débogage de problèmes SQL. Cet environnement exploite la stratégie SQL-Rewind, qui génère automatiquement des ensembles de données exécutables de problèmes-solutions en rétro-ingénierie des problèmes à partir de SQL vérifiés. Cependant, les méthodes populaires de fine-tuning basées sur les trajectoires n'explorent pas de signaux de supervision substantiels. Nous proposons en outre f-Plan Boosting, qui extrait des plans de débogage de haut niveau à partir des solutions SQL, permettant aux LLM enseignants de produire 73,7 % de trajectoires réussies supplémentaires pour l'entraînement. Nous intégrons ces composants dans un agent open-source, Bird-Fixer. Basé sur Qwen-2.5-Coder-14B, Bird-Fixer atteint un taux de réussite de 38,11 % sur BIRD-CRITIC-PG et 29,65 % sur BIRD-CRITIC-Multi, surpassant les modèles propriétaires leaders tels que Claude-3.7-Sonnet et GPT-4.1, marquant ainsi une étape significative vers la démocratisation des capacités sophistiquées de débogage SQL. Le classement et le code source sont disponibles à l'adresse : https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in
real-world database applications. Current Large Language Models (LLMs), while
adept at text-to-SQL translation, have not been rigorously evaluated on the
more challenging task of debugging SQL issues. To address this gap, we
introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530
PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks
(BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within
new environments to facilitate rigorous evaluation. Baseline evaluations
underscore the task's complexity, with the leading reasoning model O3-Mini
achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on
BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks
is crucial for empowering local development while safeguarding data privacy.
Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for
elevating open-source model capabilities for SQL issue debugging. This
environment leverages SQL-Rewind strategy, which automatically generates
executable issue-solution datasets by reverse-engineering issues from verified
SQLs. However, popular trajectory-based fine-tuning methods do not explore
substantial supervisory signals. We further propose f-Plan Boosting, which
extracts high-level debugging plans from SQL solutions, enabling teacher LLMs
to produce 73.7% more successful trajectories for training. We integrate these
components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B,
Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on
BIRD-CRITIC-Multi, surpassing leading proprietary models such as
Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing
sophisticated SQL-debugging capabilities. The leaderboard and source code are
available: https://bird-critic.github.io/