PARROT: Um Benchmark para Avaliação de LLMs na Tradução de SQL entre Sistemas

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado eficácia crescente em tarefas de Texto-para-SQL. No entanto, outro problema intimamente relacionado, a Tradução de SQL entre Sistemas (também conhecida como SQL-para-SQL), que adapta uma consulta escrita para um sistema de banco de dados (por exemplo, MySQL) em sua equivalente para outro sistema (por exemplo, ClickHouse), é de grande importância prática, mas permanece pouco explorado. Os benchmarks de SQL existentes não são adequados para avaliação de SQL-para-SQL, pois (1) focam em um conjunto limitado de sistemas de banco de dados (frequentemente apenas SQLite) e (2) não conseguem capturar muitos dialetos SQL específicos de sistemas (por exemplo, funções personalizadas, tipos de dados e regras de sintaxe). Assim, neste artigo, apresentamos o PARROT, um Benchmark Prático e Realista para Tradução de SQL entre Sistemas. O PARROT compreende 598 pares de tradução de 38 benchmarks de código aberto e serviços comerciais do mundo real, especificamente preparados para desafiar o entendimento de SQL específico de sistemas (por exemplo, LLMs alcançam uma precisão média inferior a 38,53%). Também fornecemos múltiplas variantes do benchmark, incluindo o PARROT-Diverse com 28.003 traduções (para testes extensivos de sintaxe) e o PARROT-Simple com 5.306 amostras representativas (para testes de estresse focados), abrangendo 22 sistemas de banco de dados de nível de produção. Para promover pesquisas futuras, disponibilizamos um quadro de líderes público e o código-fonte em: https://code4db.github.io/parrot-bench/.

English

Large language models (LLMS) have shown increasing effectiveness in Text-to-SQL tasks. However, another closely related problem, Cross-System SQL Translation (a.k.a., SQL-to-SQL), which adapts a query written for one database system (e.g., MySQL) into its equivalent one for another system (e.g., ClickHouse), is of great practical importance but remains underexplored. Existing SQL benchmarks are not well-suited for SQL-to-SQL evaluation, which (1) focus on a limited set of database systems (often just SQLite) and (2) cannot capture many system-specific SQL dialects (e.g., customized functions, data types, and syntax rules). Thus, in this paper, we introduce PARROT, a Practical And Realistic BenchmaRk for CrOss-System SQL Translation. PARROT comprises 598 translation pairs from 38 open-source benchmarks and real-world business services, specifically prepared to challenge system-specific SQL understanding (e.g., LLMS achieve lower than 38.53% accuracy on average). We also provide multiple benchmark variants, including PARROT-Diverse with 28,003 translations (for extensive syntax testing) and PARROT-Simple with 5,306 representative samples (for focused stress testing), covering 22 production-grade database systems. To promote future research, we release a public leaderboard and source code at: https://code4db.github.io/parrot-bench/.

PARROT: Um Benchmark para Avaliação de LLMs na Tradução de SQL entre Sistemas

PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation

Resumo

Support