ChatPaper.aiChatPaper

SWE-SQL: Aufklärung der LLM-Pfade zur Lösung von Benutzer-SQL-Problemen in realen Anwendungen

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

June 23, 2025
Autoren: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI

Zusammenfassung

Die Lösung komplexer SQL-Probleme bleibt ein erheblicher Engpass in realen Datenbankanwendungen. Aktuelle Large Language Models (LLMs), obwohl geschickt in der Text-zu-SQL-Übersetzung, wurden nicht rigoros auf die anspruchsvollere Aufgabe des Debuggens von SQL-Problemen evaluiert. Um diese Lücke zu schließen, führen wir BIRD-CRITIC ein, einen neuen Benchmark für das Debuggen von SQL-Problemen, der 530 PostgreSQL-Aufgaben (BIRD-CRITIC-PG) und 570 Multi-Dialekt-Aufgaben (BIRD-CRITIC-Multi) umfasst, die aus authentischen Benutzerproblemen destilliert und in neuen Umgebungen wiedergegeben wurden, um eine strenge Evaluation zu ermöglichen. Baseline-Evaluationen unterstreichen die Komplexität der Aufgabe, wobei das führende Reasoning-Modell O3-Mini nur eine Erfolgsrate von 38,87 % auf BIRD-CRITIC-PG und 33,33 % auf BIRD-CRITIC-Multi erreicht. Gleichzeitig ist die Weiterentwicklung von Open-Source-Modellen für Datenbankaufgaben entscheidend, um die lokale Entwicklung zu stärken und gleichzeitig die Datensicherheit zu gewährleisten. Daher präsentieren wir Six-Gym (Sql-fIX-Gym), eine Trainingsumgebung zur Verbesserung der Fähigkeiten von Open-Source-Modellen beim Debuggen von SQL-Problemen. Diese Umgebung nutzt die SQL-Rewind-Strategie, die automatisch ausführbare Problem-Lösungs-Datensätze durch Reverse-Engineering von Problemen aus verifizierten SQLs generiert. Beliebte, auf Trajektorien basierende Feinabstimmungsmethoden erforschen jedoch keine wesentlichen Überwachungssignale. Wir schlagen weiterhin f-Plan Boosting vor, das hochrangige Debugging-Pläne aus SQL-Lösungen extrahiert und es Lehrer-LLMs ermöglicht, 73,7 % mehr erfolgreiche Trajektorien für das Training zu erzeugen. Wir integrieren diese Komponenten in einen Open-Source-Agenten, Bird-Fixer. Basierend auf Qwen-2.5-Coder-14B erreicht Bird-Fixer eine Erfolgsrate von 38,11 % auf BIRD-CRITIC-PG und 29,65 % auf BIRD-CRITIC-Multi und übertrifft damit führende proprietäre Modelle wie Claude-3.7-Sonnet und GPT-4.1, was einen bedeutenden Schritt zur Demokratisierung anspruchsvoller SQL-Debugging-Fähigkeiten darstellt. Die Bestenliste und der Quellcode sind verfügbar: https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/
PDF141June 25, 2025