SWE-SQL: Illuminare i Percorsi degli LLM per Risolvere i Problemi SQL degli Utenti nelle Applicazioni del Mondo Reale
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications
June 23, 2025
Autori: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI
Abstract
La risoluzione di problemi complessi in SQL rimane un significativo collo di bottiglia nelle applicazioni di database del mondo reale. Gli attuali Modelli Linguistici di Grande Dimensione (LLM), sebbene abili nella traduzione da testo a SQL, non sono stati rigorosamente valutati sul compito più impegnativo del debug di problemi SQL. Per colmare questa lacuna, introduciamo BIRD-CRITIC, un nuovo benchmark per il debug di problemi SQL che comprende 530 task PostgreSQL (BIRD-CRITIC-PG) e 570 task multi-dialetto (BIRD-CRITIC-Multi), distillati da problemi autentici degli utenti e riprodotti in nuovi ambienti per facilitare una valutazione rigorosa. Le valutazioni di base sottolineano la complessità del compito, con il modello di ragionamento leader O3-Mini che raggiunge solo un tasso di successo del 38,87% su BIRD-CRITIC-PG e del 33,33% su BIRD-CRITIC-Multi. Nel frattempo, il progresso dei modelli open-source per i task di database è cruciale per potenziare lo sviluppo locale garantendo la privacy dei dati. Pertanto, presentiamo Six-Gym (Sql-fIX-Gym), un ambiente di formazione per elevare le capacità dei modelli open-source nel debug di problemi SQL. Questo ambiente sfrutta la strategia SQL-Rewind, che genera automaticamente dataset eseguibili di problemi-soluzioni attraverso il reverse engineering di problemi da SQL verificati. Tuttavia, i popolari metodi di fine-tuning basati su traiettorie non esplorano segnali di supervisione sostanziali. Proponiamo inoltre f-Plan Boosting, che estrae piani di debug di alto livello dalle soluzioni SQL, consentendo agli LLM insegnanti di produrre il 73,7% in più di traiettorie di successo per la formazione. Integriamo questi componenti in un agente open-source, Bird-Fixer. Basato su Qwen-2.5-Coder-14B, Bird-Fixer raggiunge un tasso di successo del 38,11% su BIRD-CRITIC-PG e del 29,65% su BIRD-CRITIC-Multi, superando i principali modelli proprietari come Claude-3.7-Sonnet e GPT-4.1, segnando un passo significativo verso la democratizzazione delle capacità sofisticate di debug SQL. La classifica e il codice sorgente sono disponibili al seguente link: https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in
real-world database applications. Current Large Language Models (LLMs), while
adept at text-to-SQL translation, have not been rigorously evaluated on the
more challenging task of debugging SQL issues. To address this gap, we
introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530
PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks
(BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within
new environments to facilitate rigorous evaluation. Baseline evaluations
underscore the task's complexity, with the leading reasoning model O3-Mini
achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on
BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks
is crucial for empowering local development while safeguarding data privacy.
Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for
elevating open-source model capabilities for SQL issue debugging. This
environment leverages SQL-Rewind strategy, which automatically generates
executable issue-solution datasets by reverse-engineering issues from verified
SQLs. However, popular trajectory-based fine-tuning methods do not explore
substantial supervisory signals. We further propose f-Plan Boosting, which
extracts high-level debugging plans from SQL solutions, enabling teacher LLMs
to produce 73.7% more successful trajectories for training. We integrate these
components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B,
Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on
BIRD-CRITIC-Multi, surpassing leading proprietary models such as
Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing
sophisticated SQL-debugging capabilities. The leaderboard and source code are
available: https://bird-critic.github.io/