LLM-R2: Um Sistema de Reescreva Baseado em Regras Aprimorado por Modelo de Linguagem de Grande Escala para Aumentar a Eficiência de Consultas

Resumo

A reescrita de consultas, que visa gerar consultas mais eficientes alterando a estrutura de uma consulta SQL sem mudar o resultado da consulta, tem sido um importante problema de pesquisa. Para manter a equivalência entre a consulta reescrita e a original durante a reescrita, os métodos tradicionais de reescrita de consultas sempre reescrevem as consultas seguindo certas regras de reescrita. No entanto, alguns problemas ainda persistem. Em primeiro lugar, os métodos existentes para encontrar a escolha ou sequência ótima de regras de reescrita ainda são limitados, e o processo sempre consome muitos recursos. Métodos que envolvem a descoberta de novas regras de reescrita geralmente exigem provas complicadas de lógica estrutural ou interações extensas com o usuário. Em segundo lugar, os métodos atuais de reescrita de consultas geralmente dependem muito de estimadores de custo de SGBD, que muitas vezes não são precisos. Neste artigo, abordamos esses problemas propondo um novo método de reescrita de consultas chamado LLM-R2, que adota um modelo de linguagem de grande escala (LLM) para propor possíveis regras de reescrita para um sistema de reescrita de banco de dados. Para melhorar ainda mais a capacidade de inferência do LLM na recomendação de regras de reescrita, treinamos um modelo contrastivo por currículo para aprender representações de consultas e selecionar demonstrações eficazes de consultas para o LLM. Os resultados experimentais mostraram que nosso método pode melhorar significativamente a eficiência de execução de consultas e superar os métodos de linha de base. Além disso, nosso método apresenta alta robustez em diferentes conjuntos de dados.

English

Query rewrite, which aims to generate more efficient queries by altering a SQL query's structure without changing the query result, has been an important research problem. In order to maintain equivalence between the rewritten query and the original one during rewriting, traditional query rewrite methods always rewrite the queries following certain rewrite rules. However, some problems still remain. Firstly, existing methods of finding the optimal choice or sequence of rewrite rules are still limited and the process always costs a lot of resources. Methods involving discovering new rewrite rules typically require complicated proofs of structural logic or extensive user interactions. Secondly, current query rewrite methods usually rely highly on DBMS cost estimators which are often not accurate. In this paper, we address these problems by proposing a novel method of query rewrite named LLM-R2, adopting a large language model (LLM) to propose possible rewrite rules for a database rewrite system. To further improve the inference ability of LLM in recommending rewrite rules, we train a contrastive model by curriculum to learn query representations and select effective query demonstrations for the LLM. Experimental results have shown that our method can significantly improve the query execution efficiency and outperform the baseline methods. In addition, our method enjoys high robustness across different datasets.

LLM-R2: Um Sistema de Reescreva Baseado em Regras Aprimorado por Modelo de Linguagem de Grande Escala para Aumentar a Eficiência de Consultas

LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency

Resumo

Support