SWE-SQL: Aufklärung der LLM-Pfade zur Lösung von Benutzer-SQL-Problemen in realen Anwendungen

papers.abstract

Die Lösung komplexer SQL-Probleme bleibt ein erheblicher Engpass in realen Datenbankanwendungen. Aktuelle Large Language Models (LLMs), obwohl geschickt in der Text-zu-SQL-Übersetzung, wurden nicht rigoros auf die anspruchsvollere Aufgabe des Debuggens von SQL-Problemen evaluiert. Um diese Lücke zu schließen, führen wir BIRD-CRITIC ein, einen neuen Benchmark für das Debuggen von SQL-Problemen, der 530 PostgreSQL-Aufgaben (BIRD-CRITIC-PG) und 570 Multi-Dialekt-Aufgaben (BIRD-CRITIC-Multi) umfasst, die aus authentischen Benutzerproblemen destilliert und in neuen Umgebungen wiedergegeben wurden, um eine strenge Evaluation zu ermöglichen. Baseline-Evaluationen unterstreichen die Komplexität der Aufgabe, wobei das führende Reasoning-Modell O3-Mini nur eine Erfolgsrate von 38,87 % auf BIRD-CRITIC-PG und 33,33 % auf BIRD-CRITIC-Multi erreicht. Gleichzeitig ist die Weiterentwicklung von Open-Source-Modellen für Datenbankaufgaben entscheidend, um die lokale Entwicklung zu stärken und gleichzeitig die Datensicherheit zu gewährleisten. Daher präsentieren wir Six-Gym (Sql-fIX-Gym), eine Trainingsumgebung zur Verbesserung der Fähigkeiten von Open-Source-Modellen beim Debuggen von SQL-Problemen. Diese Umgebung nutzt die SQL-Rewind-Strategie, die automatisch ausführbare Problem-Lösungs-Datensätze durch Reverse-Engineering von Problemen aus verifizierten SQLs generiert. Beliebte, auf Trajektorien basierende Feinabstimmungsmethoden erforschen jedoch keine wesentlichen Überwachungssignale. Wir schlagen weiterhin f-Plan Boosting vor, das hochrangige Debugging-Pläne aus SQL-Lösungen extrahiert und es Lehrer-LLMs ermöglicht, 73,7 % mehr erfolgreiche Trajektorien für das Training zu erzeugen. Wir integrieren diese Komponenten in einen Open-Source-Agenten, Bird-Fixer. Basierend auf Qwen-2.5-Coder-14B erreicht Bird-Fixer eine Erfolgsrate von 38,11 % auf BIRD-CRITIC-PG und 29,65 % auf BIRD-CRITIC-Multi und übertrifft damit führende proprietäre Modelle wie Claude-3.7-Sonnet und GPT-4.1, was einen bedeutenden Schritt zur Demokratisierung anspruchsvoller SQL-Debugging-Fähigkeiten darstellt. Die Bestenliste und der Quellcode sind verfügbar: https://bird-critic.github.io/

English

Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/

SWE-SQL: Aufklärung der LLM-Pfade zur Lösung von Benutzer-SQL-Problemen in realen Anwendungen

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

papers.abstract

Support