Consulta Ad-hoc Especulativa

Resumen

El análisis de grandes conjuntos de datos requiere una ejecución ágil de consultas, pero ejecutar consultas SQL en conjuntos de datos masivos puede ser lento. Este artículo explora si la ejecución de consultas puede comenzar incluso antes de que el usuario termine de escribir, permitiendo que los resultados aparezcan casi al instante. Proponemos SpeQL, un sistema que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para predecir consultas probables basándose en el esquema de la base de datos, las consultas previas del usuario y su consulta incompleta. Dado que la predicción exacta de consultas es inviable, SpeQL especula sobre consultas parciales de dos maneras: 1) predice la estructura de la consulta para compilar y planificar consultas con anticipación, y 2) precalcula tablas temporales más pequeñas que son mucho menores que la base de datos original, pero que aún se prevé contengan toda la información necesaria para responder a la consulta final del usuario. Además, SpeQL muestra continuamente los resultados de consultas y subconsultas especuladas en tiempo real, facilitando el análisis exploratorio. Un estudio de utilidad/usuario demostró que SpeQL mejoró el tiempo de finalización de tareas, y los participantes informaron que su visualización especulativa de resultados les ayudó a descubrir patrones en los datos más rápidamente. En el estudio, SpeQL redujo la latencia de las consultas del usuario hasta 289 veces y mantuvo un sobrecosto razonable, de 4$ por hora.

English

Analyzing large datasets requires responsive query execution, but executing SQL queries on massive datasets can be slow. This paper explores whether query execution can begin even before the user has finished typing, allowing results to appear almost instantly. We propose SpeQL, a system that leverages Large Language Models (LLMs) to predict likely queries based on the database schema, the user's past queries, and their incomplete query. Since exact query prediction is infeasible, SpeQL speculates on partial queries in two ways: 1) it predicts the query structure to compile and plan queries in advance, and 2) it precomputes smaller temporary tables that are much smaller than the original database, but are still predicted to contain all information necessary to answer the user's final query. Additionally, SpeQL continuously displays results for speculated queries and subqueries in real time, aiding exploratory analysis. A utility/user study showed that SpeQL improved task completion time, and participants reported that its speculative display of results helped them discover patterns in the data more quickly. In the study, SpeQL improves user's query latency by up to 289times and kept the overhead reasonable, at 4$ per hour.

Consulta Ad-hoc Especulativa

Speculative Ad-hoc Querying

Resumen

Support