SWE-SQL: Het verlichten van LLM-paden om gebruikers-SQL-problemen op te lossen in real-world toepassingen
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
June 23, 2025
Auteurs: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI
Samenvatting
Het oplossen van complexe SQL-problemen blijft een belangrijk knelpunt in praktische databasetoepassingen. Huidige Large Language Models (LLM's), hoewel bedreven in tekst-naar-SQL-vertaling, zijn nog niet grondig geëvalueerd op de uitdagendere taak van het debuggen van SQL-problemen. Om deze leemte aan te pakken, introduceren we BIRD-CRITIC, een nieuwe benchmark voor het debuggen van SQL-problemen, bestaande uit 530 PostgreSQL-taken (BIRD-CRITIC-PG) en 570 taken met meerdere dialecten (BIRD-CRITIC-Multi), gedistilleerd uit authentieke gebruikersproblemen en opnieuw afgespeeld in nieuwe omgevingen om een rigoureuze evaluatie mogelijk te maken. Baseline-evaluaties benadrukken de complexiteit van de taak, waarbij het toonaangevende redeneermodel O3-Mini slechts een slagingspercentage van 38,87% behaalt op BIRD-CRITIC-PG en 33,33% op BIRD-CRITIC-Multi. Tegelijkertijd is het bevorderen van open-source modellen voor databasetaken cruciaal om lokale ontwikkeling te stimuleren en tegelijkertijd gegevensprivacy te waarborgen. Daarom presenteren we Six-Gym (Sql-fIX-Gym), een trainingsomgeving voor het verbeteren van de mogelijkheden van open-source modellen voor het debuggen van SQL-problemen. Deze omgeving maakt gebruik van de SQL-Rewind-strategie, die automatisch uitvoerbare datasets met problemen en oplossingen genereert door problemen te reverse-engineeren vanuit geverifieerde SQL's. Populaire trajectgebaseerde fine-tuningmethoden verkennen echter geen substantiële superviserende signalen. We stellen verder f-Plan Boosting voor, dat hoogwaardige debugplannen extraheert uit SQL-oplossingen, waardoor leraar-LLM's 73,7% meer succesvolle trajecten kunnen produceren voor training. We integreren deze componenten in een open-source agent, Bird-Fixer. Gebaseerd op Qwen-2.5-Coder-14B, behaalt Bird-Fixer een slagingspercentage van 38,11% op BIRD-CRITIC-PG en 29,65% op BIRD-CRITIC-Multi, waarmee het toonaangevende propriëtaire modellen zoals Claude-3.7-Sonnet en GPT-4.1 overtreft, wat een belangrijke stap markeert in de democratisering van geavanceerde SQL-debugmogelijkheden. De leaderboard en broncode zijn beschikbaar op: https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in
real-world database applications. Current Large Language Models (LLMs), while
adept at text-to-SQL translation, have not been rigorously evaluated on the
more challenging task of debugging SQL issues. To address this gap, we
introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530
PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks
(BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within
new environments to facilitate rigorous evaluation. Baseline evaluations
underscore the task's complexity, with the leading reasoning model O3-Mini
achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on
BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks
is crucial for empowering local development while safeguarding data privacy.
Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for
elevating open-source model capabilities for SQL issue debugging. This
environment leverages SQL-Rewind strategy, which automatically generates
executable issue-solution datasets by reverse-engineering issues from verified
SQLs. However, popular trajectory-based fine-tuning methods do not explore
substantial supervisory signals. We further propose f-Plan Boosting, which
extracts high-level debugging plans from SQL solutions, enabling teacher LLMs
to produce 73.7% more successful trajectories for training. We integrate these
components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B,
Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on
BIRD-CRITIC-Multi, surpassing leading proprietary models such as
Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing
sophisticated SQL-debugging capabilities. The leaderboard and source code are
available: https://bird-critic.github.io/