PARROT: Um Benchmark para Avaliação de LLMs na Tradução de SQL entre Sistemas
PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation
September 27, 2025
Autores: Wei Zhou, Guoliang Li, Haoyu Wang, Yuxing Han, Xufei Wu, Fan Wu, Xuanhe Zhou
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado eficácia crescente em tarefas de Texto-para-SQL. No entanto, outro problema intimamente relacionado, a Tradução de SQL entre Sistemas (também conhecida como SQL-para-SQL), que adapta uma consulta escrita para um sistema de banco de dados (por exemplo, MySQL) em sua equivalente para outro sistema (por exemplo, ClickHouse), é de grande importância prática, mas permanece pouco explorado. Os benchmarks de SQL existentes não são adequados para avaliação de SQL-para-SQL, pois (1) focam em um conjunto limitado de sistemas de banco de dados (frequentemente apenas SQLite) e (2) não conseguem capturar muitos dialetos SQL específicos de sistemas (por exemplo, funções personalizadas, tipos de dados e regras de sintaxe). Assim, neste artigo, apresentamos o PARROT, um Benchmark Prático e Realista para Tradução de SQL entre Sistemas. O PARROT compreende 598 pares de tradução de 38 benchmarks de código aberto e serviços comerciais do mundo real, especificamente preparados para desafiar o entendimento de SQL específico de sistemas (por exemplo, LLMs alcançam uma precisão média inferior a 38,53%). Também fornecemos múltiplas variantes do benchmark, incluindo o PARROT-Diverse com 28.003 traduções (para testes extensivos de sintaxe) e o PARROT-Simple com 5.306 amostras representativas (para testes de estresse focados), abrangendo 22 sistemas de banco de dados de nível de produção. Para promover pesquisas futuras, disponibilizamos um quadro de líderes público e o código-fonte em: https://code4db.github.io/parrot-bench/.
English
Large language models (LLMS) have shown increasing effectiveness in
Text-to-SQL tasks. However, another closely related problem, Cross-System SQL
Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database
system (e.g., MySQL) into its equivalent one for another system (e.g.,
ClickHouse), is of great practical importance but remains underexplored.
Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which
(1) focus on a limited set of database systems (often just SQLite) and (2)
cannot capture many system-specific SQL dialects (e.g., customized functions,
data types, and syntax rules). Thus, in this paper, we introduce PARROT, a
Practical And Realistic BenchmaRk for CrOss-System SQL Translation. PARROT
comprises 598 translation pairs from 38 open-source benchmarks and real-world
business services, specifically prepared to challenge system-specific SQL
understanding (e.g., LLMS achieve lower than 38.53% accuracy on average). We
also provide multiple benchmark variants, including PARROT-Diverse with 28,003
translations (for extensive syntax testing) and PARROT-Simple with 5,306
representative samples (for focused stress testing), covering 22
production-grade database systems. To promote future research, we release a
public leaderboard and source code at: https://code4db.github.io/parrot-bench/.