ROSE: NL2SQL을 위한 의도 중심 평가 지표
ROSE: An Intent-Centered Evaluation Metric for NL2SQL
April 14, 2026
저자: Wenqi Pei, Shizheng Hou, Boyan Li, Han Chen, Zhichao Shi, Yuyu Luo
cs.AI
초록
자연어 SQL 변환(NL2SQL) 솔루션의 효과성을 평가하는 데 널리 사용되는 지표인 실행 정확도(EX)는 점점 더 신뢰할 수 없어지고 있습니다. 이 지표는 구문적 변동에 민감하고, 질문이 여러 해석을 허용할 수 있다는 점을 간과하며, 오류가 있는 기준 SQL에 쉽게 오도됩니다. 이를 해결하기 위해 우리는 참조 의존적 패러다임에서 기준 SQL과의 일치 여부가 아닌, 예측된 SQL이 질문에 답하는지에 초점을 맞춘 의도 중심 지표인 ROSE를 소개합니다. ROSE는 적대적 증명자-반박자 계단식 방식을 사용합니다. SQL 증명자는 사용자 의도에 대해 예측된 SQL의 의미론적 정확성을 독립적으로 평가하는 반면, 적대적 반박자는 기준 SQL을 증거로 활용하여 이 판단에 도전하고 세분화합니다. 전문가와 일치하도록 구성된 검증 세트 ROSE-VEC에서 ROSE는 인간 전문가와의 일치도에서 차기 최고 지표보다 코헨 카파 기준 약 24% 우수한 최고 성능을 달성했습니다. 또한 19개 NL2SQL 방법론에 대한 대규모 재평가를 수행하여 네 가지 가치 있는 통찰력을 도출했습니다. 더 신뢰할 수 있는 NL2SQL 연구를 지원하기 위해 ROSE와 ROSE-VEC을 공개합니다.
English
Execution Accuracy (EX), the widely used metric for evaluating the effectiveness of Natural Language to SQL (NL2SQL) solutions, is becoming increasingly unreliable. It is sensitive to syntactic variation, ignores that questions may admit multiple interpretations, and is easily misled by erroneous ground-truth SQL. To address this, we introduce ROSE, an intent-centered metric that focuses on whether the predicted SQL answers the question, rather than consistency with the ground-truth SQL under the reference-dependent paradigm. ROSE employs an adversarial Prover-Refuter cascade: SQL Prover assesses the semantic correctness of a predicted SQL against the user's intent independently, while Adversarial Refuter uses the ground-truth SQL as evidence to challenge and refine this judgment. On our expert-aligned validation set ROSE-VEC, ROSE achieves the best agreement with human experts, outperforming the next-best metric by nearly 24% in Cohen's Kappa. We also conduct a largescale re-evaluation of 19 NL2SQL methods, revealing four valuable insights. We release ROSE and ROSE-VEC to facilitate more reliable NL2SQL research.