LLMSQL: LLM 시대의 텍스트-투-SQL을 위한 WikiSQL 업그레이드
LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL
September 27, 2025
저자: Dzmitry Pihulski, Karol Charchut, Viktoria Novogrodskaia, Jan Kocoń
cs.AI
초록
자연어 질문을 SQL 쿼리로 변환하는 작업(Text-to-SQL)은 비전문가 사용자들이 관계형 데이터베이스와 상호작용할 수 있게 해주며, 데이터에 대한 자연어 인터페이스의 핵심 과제로 오랫동안 자리 잡아 왔습니다. WikiSQL 데이터셋은 초기 NL2SQL 연구에서 중요한 역할을 했지만, 대소문자 불일치, 데이터 타입 불일치, 구문 오류, 그리고 답변이 없는 질문 등의 구조적 및 주석 문제로 인해 사용이 줄어들었습니다. 우리는 LLM 시대를 위해 설계된 WikiSQL의 체계적인 개정 및 변환인 LLMSQL을 소개합니다. 이러한 오류들을 분류하고, 자동화된 방법을 통해 정리 및 재주석 작업을 수행했습니다. 이러한 개선의 영향을 평가하기 위해, Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 등을 포함한 여러 대형 언어 모델(LLM)을 평가했습니다. LLMSQL은 단순한 업데이트가 아닌, LLM에 최적화된 벤치마크로 소개됩니다: 원래의 WikiSQL이 입력에서 토큰을 선택하는 포인터 네트워크 모델을 위해 설계된 반면, LLMSQL은 깔끔한 자연어 질문과 완전한 SQL 쿼리를 일반 텍스트로 제공함으로써, 현대의 자연어-to-SQL 모델을 위한 직관적인 생성과 평가를 가능하게 합니다.
English
Converting natural language questions into SQL queries (Text-to-SQL) enables
non-expert users to interact with relational databases and has long been a
central task for natural language interfaces to data. While the WikiSQL dataset
played a key role in early NL2SQL research, its usage has declined due to
structural and annotation issues, including case sensitivity inconsistencies,
data type mismatches, syntax errors, and unanswered questions. We present
LLMSQL, a systematic revision and transformation of WikiSQL designed for the
LLM era. We classify these errors and implement automated methods for cleaning
and re-annotation. To assess the impact of these improvements, we evaluated
multiple large language models (LLMs), including Gemma 3, LLaMA 3.2, Mistral
7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 and
others. Rather than serving as an update, LLMSQL is introduced as an LLM-ready
benchmark: unlike the original WikiSQL, tailored for pointer-network models
selecting tokens from input, LLMSQL provides clean natural language questions
and full SQL queries as plain text, enabling straightforward generation and
evaluation for modern natural language-to-SQL models.