ROSE : Une métrique d'évaluation centrée sur l'intention pour la génération de SQL à partir de langage naturel

Résumé

L'Exactitude d'Exécution (EX), la métrique largement utilisée pour évaluer l'efficacité des solutions de conversion du Langage Naturel vers SQL (NL2SQL), devient de moins en moins fiable. Elle est sensible aux variations syntaxiques, ignore le fait que les questions puissent admettre plusieurs interprétations et est facilement induite en erreur par des requêtes SQL de référence erronées. Pour remédier à cela, nous présentons ROSE, une métrique centrée sur l'intention, qui se concentre sur la capacité de la requête SQL prédite à répondre à la question, plutôt que sur sa conformité à la requête SQL de référence dans le paradigme de dépendance à la référence. ROSE utilise une cascade antagoniste Prouveur-Contradicteur : le Prouveur SQL évalue la correction sémantique d'une requête SQL prédite par rapport à l'intention de l'utilisateur de manière indépendante, tandis que le Contradicteur Adversarial utilise la requête SQL de référence comme preuve pour contester et affiner ce jugement. Sur notre ensemble de validation aligné par des experts ROSE-VEC, ROSE atteint le meilleur accord avec les experts humains, surpassant la métrique suivante de près de 24% en Kappa de Cohen. Nous menons également une réévaluation à grande échelle de 19 méthodes NL2SQL, révélant quatre insights précieux. Nous publions ROSE et ROSE-VEC pour faciliter une recherche NL2SQL plus fiable.

English

Execution Accuracy (EX), the widely used metric for evaluating the effectiveness of Natural Language to SQL (NL2SQL) solutions, is becoming increasingly unreliable. It is sensitive to syntactic variation, ignores that questions may admit multiple interpretations, and is easily misled by erroneous ground-truth SQL. To address this, we introduce ROSE, an intent-centered metric that focuses on whether the predicted SQL answers the question, rather than consistency with the ground-truth SQL under the reference-dependent paradigm. ROSE employs an adversarial Prover-Refuter cascade: SQL Prover assesses the semantic correctness of a predicted SQL against the user's intent independently, while Adversarial Refuter uses the ground-truth SQL as evidence to challenge and refine this judgment. On our expert-aligned validation set ROSE-VEC, ROSE achieves the best agreement with human experts, outperforming the next-best metric by nearly 24% in Cohen's Kappa. We also conduct a largescale re-evaluation of 19 NL2SQL methods, revealing four valuable insights. We release ROSE and ROSE-VEC to facilitate more reliable NL2SQL research.

ROSE : Une métrique d'évaluation centrée sur l'intention pour la génération de SQL à partir de langage naturel

ROSE: An Intent-Centered Evaluation Metric for NL2SQL

Résumé

Support