SWE-SQL : Éclairer les voies des LLM pour résoudre les problèmes SQL des utilisateurs dans des applications réelles

papers.abstract

La résolution de problèmes SQL complexes reste un goulot d'étranglement majeur dans les applications de bases de données réelles. Les modèles de langage à grande échelle (LLM) actuels, bien que compétents dans la traduction texte-SQL, n'ont pas été rigoureusement évalués sur la tâche plus complexe du débogage de problèmes SQL. Pour combler cette lacune, nous introduisons BIRD-CRITIC, un nouveau benchmark de débogage de problèmes SQL comprenant 530 tâches PostgreSQL (BIRD-CRITIC-PG) et 570 tâches multi-dialectes (BIRD-CRITIC-Multi), extraites de problèmes utilisateurs authentiques et rejouées dans de nouveaux environnements pour faciliter une évaluation rigoureuse. Les évaluations de base soulignent la complexité de la tâche, avec le modèle de raisonnement leader O3-Mini atteignant seulement un taux de réussite de 38,87 % sur BIRD-CRITIC-PG et 33,33 % sur BIRD-CRITIC-Multi. Par ailleurs, l'amélioration des modèles open-source pour les tâches de bases de données est cruciale pour renforcer le développement local tout en protégeant la confidentialité des données. Par conséquent, nous présentons Six-Gym (Sql-fIX-Gym), un environnement d'entraînement pour améliorer les capacités des modèles open-source dans le débogage de problèmes SQL. Cet environnement exploite la stratégie SQL-Rewind, qui génère automatiquement des ensembles de données exécutables de problèmes-solutions en rétro-ingénierie des problèmes à partir de SQL vérifiés. Cependant, les méthodes populaires de fine-tuning basées sur les trajectoires n'explorent pas de signaux de supervision substantiels. Nous proposons en outre f-Plan Boosting, qui extrait des plans de débogage de haut niveau à partir des solutions SQL, permettant aux LLM enseignants de produire 73,7 % de trajectoires réussies supplémentaires pour l'entraînement. Nous intégrons ces composants dans un agent open-source, Bird-Fixer. Basé sur Qwen-2.5-Coder-14B, Bird-Fixer atteint un taux de réussite de 38,11 % sur BIRD-CRITIC-PG et 29,65 % sur BIRD-CRITIC-Multi, surpassant les modèles propriétaires leaders tels que Claude-3.7-Sonnet et GPT-4.1, marquant ainsi une étape significative vers la démocratisation des capacités sophistiquées de débogage SQL. Le classement et le code source sont disponibles à l'adresse : https://bird-critic.github.io/

English

Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/

SWE-SQL : Éclairer les voies des LLM pour résoudre les problèmes SQL des utilisateurs dans des applications réelles

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

papers.abstract

Support