Requêtes ad hoc spéculatives

papers.abstract

L'analyse de grands ensembles de données nécessite une exécution rapide des requêtes, mais l'exécution de requêtes SQL sur des jeux de données massifs peut être lente. Cet article explore si l'exécution des requêtes peut commencer avant même que l'utilisateur ait terminé de taper, permettant ainsi aux résultats d'apparaître presque instantanément. Nous proposons SpeQL, un système qui exploite les modèles de langage à grande échelle (LLMs) pour prédire les requêtes probables en fonction du schéma de la base de données, des requêtes passées de l'utilisateur et de sa requête incomplète. Comme la prédiction exacte des requêtes est impossible, SpeQL spécule sur les requêtes partielles de deux manières : 1) il prédit la structure de la requête pour compiler et planifier les requêtes à l'avance, et 2) il précalcule des tables temporaires plus petites, bien moins volumineuses que la base de données d'origine, mais qui sont prédites pour contenir toutes les informations nécessaires pour répondre à la requête finale de l'utilisateur. De plus, SpeQL affiche en temps réel les résultats des requêtes et sous-requêtes spéculées, facilitant ainsi l'analyse exploratoire. Une étude d'utilité/utilisation a montré que SpeQL réduisait le temps de réalisation des tâches, et les participants ont rapporté que l'affichage spéculatif des résultats les aidait à découvrir des motifs dans les données plus rapidement. Dans l'étude, SpeQL a amélioré la latence des requêtes des utilisateurs jusqu'à 289 fois tout en maintenant une surcharge raisonnable, à 4$ par heure.

English

Analyzing large datasets requires responsive query execution, but executing SQL queries on massive datasets can be slow. This paper explores whether query execution can begin even before the user has finished typing, allowing results to appear almost instantly. We propose SpeQL, a system that leverages Large Language Models (LLMs) to predict likely queries based on the database schema, the user's past queries, and their incomplete query. Since exact query prediction is infeasible, SpeQL speculates on partial queries in two ways: 1) it predicts the query structure to compile and plan queries in advance, and 2) it precomputes smaller temporary tables that are much smaller than the original database, but are still predicted to contain all information necessary to answer the user's final query. Additionally, SpeQL continuously displays results for speculated queries and subqueries in real time, aiding exploratory analysis. A utility/user study showed that SpeQL improved task completion time, and participants reported that its speculative display of results helped them discover patterns in the data more quickly. In the study, SpeQL improves user's query latency by up to 289times and kept the overhead reasonable, at 4$ per hour.

Requêtes ad hoc spéculatives

Speculative Ad-hoc Querying

papers.abstract

Support