PARROT: Un Punto de Referencia para Evaluar Modelos de Lenguaje de Gran Escala en la Traducción de SQL entre Sistemas
PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation
September 27, 2025
Autores: Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMS, por sus siglas en inglés) han demostrado una eficacia creciente en tareas de Texto-a-SQL. Sin embargo, otro problema estrechamente relacionado, la Traducción de SQL entre Sistemas (también conocida como SQL-a-SQL), que adapta una consulta escrita para un sistema de base de datos (por ejemplo, MySQL) a su equivalente para otro sistema (por ejemplo, ClickHouse), es de gran importancia práctica pero sigue siendo poco explorado. Los benchmarks de SQL existentes no son adecuados para la evaluación de SQL-a-SQL, ya que (1) se centran en un conjunto limitado de sistemas de bases de datos (a menudo solo SQLite) y (2) no pueden capturar muchos dialectos de SQL específicos del sistema (por ejemplo, funciones personalizadas, tipos de datos y reglas de sintaxis). Por lo tanto, en este artículo, presentamos PARROT, un Benchmark Práctico y Realista para la Traducción de SQL entre Sistemas. PARROT incluye 598 pares de traducción de 38 benchmarks de código abierto y servicios empresariales del mundo real, específicamente preparados para desafiar la comprensión de SQL específica del sistema (por ejemplo, los LLMS logran una precisión promedio inferior al 38,53%). También proporcionamos múltiples variantes del benchmark, incluyendo PARROT-Diverse con 28,003 traducciones (para pruebas extensivas de sintaxis) y PARROT-Simple con 5,306 muestras representativas (para pruebas de estrés focalizadas), cubriendo 22 sistemas de bases de datos de grado de producción. Para promover futuras investigaciones, publicamos un tablero de clasificación público y el código fuente en: https://code4db.github.io/parrot-bench/.
English
Large language models (LLMS) have shown increasing effectiveness in
Text-to-SQL tasks. However, another closely related problem, Cross-System SQL
Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database
system (e.g., MySQL) into its equivalent one for another system (e.g.,
ClickHouse), is of great practical importance but remains underexplored.
Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which
(1) focus on a limited set of database systems (often just SQLite) and (2)
cannot capture many system-specific SQL dialects (e.g., customized functions,
data types, and syntax rules). Thus, in this paper, we introduce PARROT, a
Practical And Realistic BenchmaRk for CrOss-System SQL Translation. PARROT
comprises 598 translation pairs from 38 open-source benchmarks and real-world
business services, specifically prepared to challenge system-specific SQL
understanding (e.g., LLMS achieve lower than 38.53% accuracy on average). We
also provide multiple benchmark variants, including PARROT-Diverse with 28,003
translations (for extensive syntax testing) and PARROT-Simple with 5,306
representative samples (for focused stress testing), covering 22
production-grade database systems. To promote future research, we release a
public leaderboard and source code at: https://code4db.github.io/parrot-bench/.