SWE-SQL: Illuminare i Percorsi degli LLM per Risolvere i Problemi SQL degli Utenti nelle Applicazioni del Mondo Reale

Abstract

La risoluzione di problemi complessi in SQL rimane un significativo collo di bottiglia nelle applicazioni di database del mondo reale. Gli attuali Modelli Linguistici di Grande Dimensione (LLM), sebbene abili nella traduzione da testo a SQL, non sono stati rigorosamente valutati sul compito più impegnativo del debug di problemi SQL. Per colmare questa lacuna, introduciamo BIRD-CRITIC, un nuovo benchmark per il debug di problemi SQL che comprende 530 task PostgreSQL (BIRD-CRITIC-PG) e 570 task multi-dialetto (BIRD-CRITIC-Multi), distillati da problemi autentici degli utenti e riprodotti in nuovi ambienti per facilitare una valutazione rigorosa. Le valutazioni di base sottolineano la complessità del compito, con il modello di ragionamento leader O3-Mini che raggiunge solo un tasso di successo del 38,87% su BIRD-CRITIC-PG e del 33,33% su BIRD-CRITIC-Multi. Nel frattempo, il progresso dei modelli open-source per i task di database è cruciale per potenziare lo sviluppo locale garantendo la privacy dei dati. Pertanto, presentiamo Six-Gym (Sql-fIX-Gym), un ambiente di formazione per elevare le capacità dei modelli open-source nel debug di problemi SQL. Questo ambiente sfrutta la strategia SQL-Rewind, che genera automaticamente dataset eseguibili di problemi-soluzioni attraverso il reverse engineering di problemi da SQL verificati. Tuttavia, i popolari metodi di fine-tuning basati su traiettorie non esplorano segnali di supervisione sostanziali. Proponiamo inoltre f-Plan Boosting, che estrae piani di debug di alto livello dalle soluzioni SQL, consentendo agli LLM insegnanti di produrre il 73,7% in più di traiettorie di successo per la formazione. Integriamo questi componenti in un agente open-source, Bird-Fixer. Basato su Qwen-2.5-Coder-14B, Bird-Fixer raggiunge un tasso di successo del 38,11% su BIRD-CRITIC-PG e del 29,65% su BIRD-CRITIC-Multi, superando i principali modelli proprietari come Claude-3.7-Sonnet e GPT-4.1, segnando un passo significativo verso la democratizzazione delle capacità sofisticate di debug SQL. La classifica e il codice sorgente sono disponibili al seguente link: https://bird-critic.github.io/

English

Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/

SWE-SQL: Illuminare i Percorsi degli LLM per Risolvere i Problemi SQL degli Utenti nelle Applicazioni del Mondo Reale

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Abstract

Support