LLM-R2: Un Sistema de Reescribir Basado en Reglas Potenciado por un Modelo de Lenguaje de Gran Escala para Mejorar la Eficiencia de Consultas
LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency
April 19, 2024
Autores: Zhaodonghui Li, Haitao Yuan, Huiming Wang, Gao Cong, Lidong Bing
cs.AI
Resumen
La reescritura de consultas, que tiene como objetivo generar consultas más eficientes modificando la estructura de una consulta SQL sin alterar el resultado, ha sido un problema de investigación importante. Para mantener la equivalencia entre la consulta reescrita y la original durante el proceso de reescritura, los métodos tradicionales de reescritura de consultas siempre siguen ciertas reglas de reescritura. Sin embargo, persisten algunos problemas. En primer lugar, los métodos existentes para encontrar la elección óptima o la secuencia de reglas de reescritura siguen siendo limitados y el proceso siempre consume muchos recursos. Los métodos que implican el descubrimiento de nuevas reglas de reescritura suelen requerir pruebas complicadas de lógica estructural o interacciones extensas con el usuario. En segundo lugar, los métodos actuales de reescritura de consultas suelen depender en gran medida de los estimadores de costos de los sistemas de gestión de bases de datos (DBMS), que a menudo no son precisos. En este artículo, abordamos estos problemas proponiendo un nuevo método de reescritura de consultas llamado LLM-R2, que adopta un modelo de lenguaje grande (LLM) para proponer posibles reglas de reescritura para un sistema de reescritura de bases de datos. Para mejorar aún más la capacidad de inferencia del LLM en la recomendación de reglas de reescritura, entrenamos un modelo contrastivo mediante un plan de estudios para aprender representaciones de consultas y seleccionar demostraciones efectivas de consultas para el LLM. Los resultados experimentales han demostrado que nuestro método puede mejorar significativamente la eficiencia de ejecución de consultas y superar a los métodos de referencia. Además, nuestro método goza de una alta robustez en diferentes conjuntos de datos.
English
Query rewrite, which aims to generate more efficient queries by altering a
SQL query's structure without changing the query result, has been an important
research problem. In order to maintain equivalence between the rewritten query
and the original one during rewriting, traditional query rewrite methods always
rewrite the queries following certain rewrite rules. However, some problems
still remain. Firstly, existing methods of finding the optimal choice or
sequence of rewrite rules are still limited and the process always costs a lot
of resources. Methods involving discovering new rewrite rules typically require
complicated proofs of structural logic or extensive user interactions.
Secondly, current query rewrite methods usually rely highly on DBMS cost
estimators which are often not accurate. In this paper, we address these
problems by proposing a novel method of query rewrite named LLM-R2, adopting a
large language model (LLM) to propose possible rewrite rules for a database
rewrite system. To further improve the inference ability of LLM in recommending
rewrite rules, we train a contrastive model by curriculum to learn query
representations and select effective query demonstrations for the LLM.
Experimental results have shown that our method can significantly improve the
query execution efficiency and outperform the baseline methods. In addition,
our method enjoys high robustness across different datasets.Summary
AI-Generated Summary