LLM-R2: Un Sistema de Reescribir Basado en Reglas Potenciado por un Modelo de Lenguaje de Gran Escala para Mejorar la Eficiencia de Consultas

Resumen

La reescritura de consultas, que tiene como objetivo generar consultas más eficientes modificando la estructura de una consulta SQL sin alterar el resultado, ha sido un problema de investigación importante. Para mantener la equivalencia entre la consulta reescrita y la original durante el proceso de reescritura, los métodos tradicionales de reescritura de consultas siempre siguen ciertas reglas de reescritura. Sin embargo, persisten algunos problemas. En primer lugar, los métodos existentes para encontrar la elección óptima o la secuencia de reglas de reescritura siguen siendo limitados y el proceso siempre consume muchos recursos. Los métodos que implican el descubrimiento de nuevas reglas de reescritura suelen requerir pruebas complicadas de lógica estructural o interacciones extensas con el usuario. En segundo lugar, los métodos actuales de reescritura de consultas suelen depender en gran medida de los estimadores de costos de los sistemas de gestión de bases de datos (DBMS), que a menudo no son precisos. En este artículo, abordamos estos problemas proponiendo un nuevo método de reescritura de consultas llamado LLM-R2, que adopta un modelo de lenguaje grande (LLM) para proponer posibles reglas de reescritura para un sistema de reescritura de bases de datos. Para mejorar aún más la capacidad de inferencia del LLM en la recomendación de reglas de reescritura, entrenamos un modelo contrastivo mediante un plan de estudios para aprender representaciones de consultas y seleccionar demostraciones efectivas de consultas para el LLM. Los resultados experimentales han demostrado que nuestro método puede mejorar significativamente la eficiencia de ejecución de consultas y superar a los métodos de referencia. Además, nuestro método goza de una alta robustez en diferentes conjuntos de datos.

English

Query rewrite, which aims to generate more efficient queries by altering a SQL query's structure without changing the query result, has been an important research problem. In order to maintain equivalence between the rewritten query and the original one during rewriting, traditional query rewrite methods always rewrite the queries following certain rewrite rules. However, some problems still remain. Firstly, existing methods of finding the optimal choice or sequence of rewrite rules are still limited and the process always costs a lot of resources. Methods involving discovering new rewrite rules typically require complicated proofs of structural logic or extensive user interactions. Secondly, current query rewrite methods usually rely highly on DBMS cost estimators which are often not accurate. In this paper, we address these problems by proposing a novel method of query rewrite named LLM-R2, adopting a large language model (LLM) to propose possible rewrite rules for a database rewrite system. To further improve the inference ability of LLM in recommending rewrite rules, we train a contrastive model by curriculum to learn query representations and select effective query demonstrations for the LLM. Experimental results have shown that our method can significantly improve the query execution efficiency and outperform the baseline methods. In addition, our method enjoys high robustness across different datasets.

LLM-R2: Un Sistema de Reescribir Basado en Reglas Potenciado por un Modelo de Lenguaje de Gran Escala para Mejorar la Eficiencia de Consultas

LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency

Resumen

Support