Mesa Redonda: Aprovechando el Esquema Dinámico y el Autocompletado Contextual para Mejorar la Precisión de Consultas en Respuestas a Preguntas Tabulares

Resumen

Con los avances en los Modelos de Lenguaje de Gran Tamaño (LLMs), un caso de uso principal que ha surgido es la consulta a bases de datos en inglés sencillo, traduciendo las preguntas de los usuarios en consultas de base de datos ejecutables, lo cual ha mejorado significativamente. Sin embargo, los conjuntos de datos del mundo real a menudo presentan una amplia gama de atributos y valores complejos, complicando la tarea de los LLMs de identificar con precisión columnas o valores relevantes a partir de consultas en lenguaje natural. Los métodos tradicionales no pueden transmitir completamente el tamaño y la complejidad de los conjuntos de datos al LLM. Para abordar estos desafíos, proponemos un marco novedoso que aprovecha la Búsqueda de Texto Completo (FTS) en la tabla de entrada. Este enfoque no solo permite la detección precisa de valores y columnas específicos, sino que también reduce el espacio de búsqueda para los modelos de lenguaje, mejorando así la precisión de las consultas. Además, admite una función de autocompletar personalizada que sugiere consultas basadas en los datos de la tabla. Esta integración refina significativamente la interacción entre el usuario y conjuntos de datos complejos, ofreciendo una solución sofisticada a las limitaciones de las capacidades actuales de consulta de tablas. Este trabajo está acompañado por una aplicación para plataformas Mac y Windows, que los lectores pueden probar por sí mismos con sus propios datos.

English

With advancements in Large Language Models (LLMs), a major use case that has emerged is querying databases in plain English, translating user questions into executable database queries, which has improved significantly. However, real-world datasets often feature a vast array of attributes and complex values, complicating the LLMs task of accurately identifying relevant columns or values from natural language queries. Traditional methods cannot fully relay the datasets size and complexity to the LLM. To address these challenges, we propose a novel framework that leverages Full-Text Search (FTS) on the input table. This approach not only enables precise detection of specific values and columns but also narrows the search space for language models, thereby enhancing query accuracy. Additionally, it supports a custom auto-complete feature that suggests queries based on the data in the table. This integration significantly refines the interaction between the user and complex datasets, offering a sophisticated solution to the limitations faced by current table querying capabilities. This work is accompanied by an application for both Mac and Windows platforms, which readers can try out themselves on their own data.