SWE-SQL: Het verlichten van LLM-paden om gebruikers-SQL-problemen op te lossen in real-world toepassingen

Samenvatting

Het oplossen van complexe SQL-problemen blijft een belangrijk knelpunt in praktische databasetoepassingen. Huidige Large Language Models (LLM's), hoewel bedreven in tekst-naar-SQL-vertaling, zijn nog niet grondig geëvalueerd op de uitdagendere taak van het debuggen van SQL-problemen. Om deze leemte aan te pakken, introduceren we BIRD-CRITIC, een nieuwe benchmark voor het debuggen van SQL-problemen, bestaande uit 530 PostgreSQL-taken (BIRD-CRITIC-PG) en 570 taken met meerdere dialecten (BIRD-CRITIC-Multi), gedistilleerd uit authentieke gebruikersproblemen en opnieuw afgespeeld in nieuwe omgevingen om een rigoureuze evaluatie mogelijk te maken. Baseline-evaluaties benadrukken de complexiteit van de taak, waarbij het toonaangevende redeneermodel O3-Mini slechts een slagingspercentage van 38,87% behaalt op BIRD-CRITIC-PG en 33,33% op BIRD-CRITIC-Multi. Tegelijkertijd is het bevorderen van open-source modellen voor databasetaken cruciaal om lokale ontwikkeling te stimuleren en tegelijkertijd gegevensprivacy te waarborgen. Daarom presenteren we Six-Gym (Sql-fIX-Gym), een trainingsomgeving voor het verbeteren van de mogelijkheden van open-source modellen voor het debuggen van SQL-problemen. Deze omgeving maakt gebruik van de SQL-Rewind-strategie, die automatisch uitvoerbare datasets met problemen en oplossingen genereert door problemen te reverse-engineeren vanuit geverifieerde SQL's. Populaire trajectgebaseerde fine-tuningmethoden verkennen echter geen substantiële superviserende signalen. We stellen verder f-Plan Boosting voor, dat hoogwaardige debugplannen extraheert uit SQL-oplossingen, waardoor leraar-LLM's 73,7% meer succesvolle trajecten kunnen produceren voor training. We integreren deze componenten in een open-source agent, Bird-Fixer. Gebaseerd op Qwen-2.5-Coder-14B, behaalt Bird-Fixer een slagingspercentage van 38,11% op BIRD-CRITIC-PG en 29,65% op BIRD-CRITIC-Multi, waarmee het toonaangevende propriëtaire modellen zoals Claude-3.7-Sonnet en GPT-4.1 overtreft, wat een belangrijke stap markeert in de democratisering van geavanceerde SQL-debugmogelijkheden. De leaderboard en broncode zijn beschikbaar op: https://bird-critic.github.io/

English

Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/

SWE-SQL: Het verlichten van LLM-paden om gebruikers-SQL-problemen op te lossen in real-world toepassingen

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Samenvatting

Support