ChatPaper.aiChatPaper

SWE-SQL: Освещение путей использования языковых моделей для решения пользовательских проблем с SQL в реальных приложениях

SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

June 23, 2025
Авторы: Jinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng
cs.AI

Аннотация

Разрешение сложных проблем SQL остается значительным узким местом в реальных приложениях баз данных. Современные крупные языковые модели (LLM), хотя и эффективны в переводе текста в SQL, не были тщательно оценены на более сложной задаче отладки SQL-проблем. Чтобы устранить этот пробел, мы представляем BIRD-CRITIC, новый бенчмарк для отладки SQL-проблем, включающий 530 задач PostgreSQL (BIRD-CRITIC-PG) и 570 мультидиалектных задач (BIRD-CRITIC-Multi), извлеченных из реальных пользовательских проблем и воспроизведенных в новых средах для обеспечения строгой оценки. Базовые оценки подчеркивают сложность задачи: ведущая модель рассуждений O3-Mini достигает успеха только в 38,87% случаев на BIRD-CRITIC-PG и 33,33% на BIRD-CRITIC-Multi. В то же время развитие открытых моделей для задач баз данных имеет решающее значение для поддержки локальной разработки и защиты конфиденциальности данных. Поэтому мы представляем Six-Gym (Sql-fIX-Gym), среду обучения для повышения возможностей открытых моделей в отладке SQL-проблем. Эта среда использует стратегию SQL-Rewind, которая автоматически генерирует исполняемые наборы данных проблем-решений путем обратного проектирования проблем из проверенных SQL. Однако популярные методы тонкой настройки на основе траекторий не исследуют существенные сигналы надзора. Мы также предлагаем f-Plan Boosting, который извлекает высокоуровневые планы отладки из SQL-решений, позволяя учительским LLM генерировать на 73,7% больше успешных траекторий для обучения. Мы интегрируем эти компоненты в открытый агент Bird-Fixer. На основе Qwen-2.5-Coder-14B, Bird-Fixer достигает успеха в 38,11% случаев на BIRD-CRITIC-PG и 29,65% на BIRD-CRITIC-Multi, превосходя ведущие проприетарные модели, такие как Claude-3.7-Sonnet и GPT-4.1, что знаменует значительный шаг к демократизации сложных возможностей отладки SQL. Таблица лидеров и исходный код доступны по адресу: https://bird-critic.github.io/
English
Resolution of complex SQL issues persists as a significant bottleneck in real-world database applications. Current Large Language Models (LLMs), while adept at text-to-SQL translation, have not been rigorously evaluated on the more challenging task of debugging SQL issues. To address this gap, we introduce BIRD-CRITIC, a new SQL issue debugging benchmark comprising 530 PostgreSQL tasks (BIRD-CRITIC-PG) and 570 multi-dialect tasks (BIRD-CRITIC-Multi), distilled from authentic user issues and replayed within new environments to facilitate rigorous evaluation. Baseline evaluations underscore the task's complexity, with the leading reasoning model O3-Mini achieving only 38.87% success rate on BIRD-CRITIC-PG and 33.33% on BIRD-CRITIC-Multi. Meanwhile, advancing open-source models for database tasks is crucial for empowering local development while safeguarding data privacy. Therefore, we present Six-Gym (Sql-fIX-Gym), a training environment for elevating open-source model capabilities for SQL issue debugging. This environment leverages SQL-Rewind strategy, which automatically generates executable issue-solution datasets by reverse-engineering issues from verified SQLs. However, popular trajectory-based fine-tuning methods do not explore substantial supervisory signals. We further propose f-Plan Boosting, which extracts high-level debugging plans from SQL solutions, enabling teacher LLMs to produce 73.7% more successful trajectories for training. We integrate these components into an open-source agent, Bird-Fixer. Based on Qwen-2.5-Coder-14B, Bird-Fixer achieves 38.11% success rate on BIRD-CRITIC-PG and 29.65% on BIRD-CRITIC-Multi, surpassing leading proprietary models such as Claude-3.7-Sonnet and GPT-4.1, marking a significant step toward democratizing sophisticated SQL-debugging capabilities. The leaderboard and source code are available: https://bird-critic.github.io/
PDF141June 25, 2025