SWE-SQL: Iluminando las Rutas de los LLM para Resolver Problemas de SQL de Usuarios en Aplicaciones del Mundo Real

Resumen

La resolución de problemas complejos de SQL sigue siendo un cuello de botella significativo en las aplicaciones de bases de datos del mundo real. Los modelos de lenguaje de gran escala (LLMs) actuales, aunque competentes en la traducción de texto a SQL, no han sido evaluados rigurosamente en la tarea más desafiante de depuración de problemas de SQL. Para abordar esta brecha, presentamos BIRD-CRITIC, un nuevo punto de referencia para la depuración de problemas de SQL que comprende 530 tareas de PostgreSQL (BIRD-CRITIC-PG) y 570 tareas multi-dialecto (BIRD-CRITIC-Multi), extraídas de problemas auténticos de usuarios y reproducidas en nuevos entornos para facilitar una evaluación rigurosa. Las evaluaciones de referencia subrayan la complejidad de la tarea, con el modelo de razonamiento líder O3-Mini logrando solo un 38.87% de tasa de éxito en BIRD-CRITIC-PG y un 33.33% en BIRD-CRITIC-Multi. Mientras tanto, avanzar en los modelos de código abierto para tareas de bases de datos es crucial para empoderar el desarrollo local mientras se protege la privacidad de los datos. Por lo tanto, presentamos Six-Gym (Sql-fIX-Gym), un entorno de entrenamiento para elevar las capacidades de los modelos de código abierto en la depuración de problemas de SQL. Este entorno aprovecha la estrategia SQL-Rewind, que genera automáticamente conjuntos de datos ejecutables de problemas-soluciones mediante la ingeniería inversa de problemas a partir de SQLs verificados. Sin embargo, los métodos populares de ajuste fino basados en trayectorias no exploran señales de supervisión sustanciales. Además, proponemos f-Plan Boosting, que extrae planes de depuración de alto nivel de las soluciones de SQL, permitiendo que los LLMs maestros produzcan un 73.7% más de trayectorias exitosas para el entrenamiento. Integramos estos componentes en un agente de código abierto, Bird-Fixer. Basado en Qwen-2.5-Coder-14B, Bird-Fixer logra un 38.11% de tasa de éxito en BIRD-CRITIC-PG y un 29.65% en BIRD-CRITIC-Multi, superando a modelos propietarios líderes como Claude-3.7-Sonnet y GPT-4.1, marcando un paso significativo hacia la democratización de capacidades sofisticadas de depuración de SQL. El tablero de clasificación y el código fuente están disponibles en: https://bird-critic.github.io/

English

Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/

SWE-SQL: Iluminando las Rutas de los LLM para Resolver Problemas de SQL de Usuarios en Aplicaciones del Mundo Real

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Resumen

Support