PARROT: Un Punto de Referencia para Evaluar Modelos de Lenguaje de Gran Escala en la Traducción de SQL entre Sistemas

Resumen

Los modelos de lenguaje de gran escala (LLMS, por sus siglas en inglés) han demostrado una eficacia creciente en tareas de Texto-a-SQL. Sin embargo, otro problema estrechamente relacionado, la Traducción de SQL entre Sistemas (también conocida como SQL-a-SQL), que adapta una consulta escrita para un sistema de base de datos (por ejemplo, MySQL) a su equivalente para otro sistema (por ejemplo, ClickHouse), es de gran importancia práctica pero sigue siendo poco explorado. Los benchmarks de SQL existentes no son adecuados para la evaluación de SQL-a-SQL, ya que (1) se centran en un conjunto limitado de sistemas de bases de datos (a menudo solo SQLite) y (2) no pueden capturar muchos dialectos de SQL específicos del sistema (por ejemplo, funciones personalizadas, tipos de datos y reglas de sintaxis). Por lo tanto, en este artículo, presentamos PARROT, un Benchmark Práctico y Realista para la Traducción de SQL entre Sistemas. PARROT incluye 598 pares de traducción de 38 benchmarks de código abierto y servicios empresariales del mundo real, específicamente preparados para desafiar la comprensión de SQL específica del sistema (por ejemplo, los LLMS logran una precisión promedio inferior al 38,53%). También proporcionamos múltiples variantes del benchmark, incluyendo PARROT-Diverse con 28,003 traducciones (para pruebas extensivas de sintaxis) y PARROT-Simple con 5,306 muestras representativas (para pruebas de estrés focalizadas), cubriendo 22 sistemas de bases de datos de grado de producción. Para promover futuras investigaciones, publicamos un tablero de clasificación público y el código fuente en: https://code4db.github.io/parrot-bench/.

English

Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often just SQLite) and (2) cannot capture many system-specific SQL dialects (e.g., customized functions, data types, and syntax rules). Thus, in this paper, we introduce PARROT, a Practical And Realistic BenchmaRk for CrOss-System SQL Translation. PARROT comprises 598 translation pairs from 38 open-source benchmarks and real-world business services, specifically prepared to challenge system-specific SQL understanding (e.g., LLMS achieve lower than 38.53% accuracy on average). We also provide multiple benchmark variants, including PARROT-Diverse with 28,003 translations (for extensive syntax testing) and PARROT-Simple with 5,306 representative samples (for focused stress testing), covering 22 production-grade database systems. To promote future research, we release a public leaderboard and source code at: https://code4db.github.io/parrot-bench/.

PARROT: Un Punto de Referencia para Evaluar Modelos de Lenguaje de Gran Escala en la Traducción de SQL entre Sistemas

PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

Resumen

Support