RoundTable: Nutzung eines dynamischen Schemas und kontextbezogener Autovervollständigung zur Verbesserung der Abfragegenauigkeit in der tabellarischen Fragebeantwortung.

Zusammenfassung

Mit den Fortschritten bei Large Language Models (LLMs) ist ein wichtiger Anwendungsfall entstanden, nämlich die Abfrage von Datenbanken in einfachem Englisch, wobei Benutzerfragen in ausführbare Datenbankabfragen übersetzt werden, was sich signifikant verbessert hat. Allerdings weisen realitätsnahe Datensätze oft eine Vielzahl von Attributen und komplexen Werten auf, was die Aufgabe der LLMs erschwert, relevante Spalten oder Werte aus natürlichsprachlichen Abfragen genau zu identifizieren. Traditionelle Methoden können die Größe und Komplexität der Datensätze nicht vollständig an die LLM weitergeben. Um diese Herausforderungen anzugehen, schlagen wir ein neuartiges Framework vor, das Full-Text Search (FTS) auf der Eingabetabelle nutzt. Dieser Ansatz ermöglicht nicht nur die präzise Erkennung spezifischer Werte und Spalten, sondern begrenzt auch den Suchraum für Sprachmodelle, wodurch die Abfragegenauigkeit verbessert wird. Darüber hinaus unterstützt er eine benutzerdefinierte Autovervollständigungsfunktion, die Abfragen basierend auf den Daten in der Tabelle vorschlägt. Diese Integration verfeinert signifikant die Interaktion zwischen dem Benutzer und komplexen Datensätzen und bietet eine ausgefeilte Lösung für die Einschränkungen, denen die aktuellen Tabellenabfragefähigkeiten gegenüberstehen. Diese Arbeit wird von einer Anwendung für Mac- und Windows-Plattformen begleitet, die die Leser selbst mit ihren eigenen Daten ausprobieren können.

English

With advancements in Large Language Models (LLMs), a major use case that has emerged is querying databases in plain English, translating user questions into executable database queries, which has improved significantly. However, real-world datasets often feature a vast array of attributes and complex values, complicating the LLMs task of accurately identifying relevant columns or values from natural language queries. Traditional methods cannot fully relay the datasets size and complexity to the LLM. To address these challenges, we propose a novel framework that leverages Full-Text Search (FTS) on the input table. This approach not only enables precise detection of specific values and columns but also narrows the search space for language models, thereby enhancing query accuracy. Additionally, it supports a custom auto-complete feature that suggests queries based on the data in the table. This integration significantly refines the interaction between the user and complex datasets, offering a sophisticated solution to the limitations faced by current table querying capabilities. This work is accompanied by an application for both Mac and Windows platforms, which readers can try out themselves on their own data.