ChatPaper.aiChatPaper

KITAB: Evaluación de Modelos de Lenguaje de Gran Escala en la Satisfacción de Restricciones para la Recuperación de Información

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

October 24, 2023
Autores: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI

Resumen

Estudiamos la capacidad de los modelos de última generación para responder consultas de satisfacción de restricciones en la recuperación de información (por ejemplo, 'una lista de heladerías en San Diego'). En el pasado, este tipo de consultas se consideraban tareas que solo podían resolverse mediante búsquedas web o bases de conocimiento. Recientemente, los modelos de lenguaje de gran escala (LLMs) han demostrado habilidades emergentes iniciales en esta tarea. Sin embargo, muchos puntos de referencia actuales de recuperación están saturados o no miden la satisfacción de restricciones. Motivados por las crecientes preocupaciones sobre la incorrección factual y las alucinaciones de los LLMs, presentamos KITAB, un nuevo conjunto de datos para medir las habilidades de satisfacción de restricciones de los modelos de lenguaje. KITAB consta de datos relacionados con libros de más de 600 autores y 13,000 consultas, y también ofrece un enfoque asociado de recopilación dinámica de datos y verificación de restricciones para adquirir datos de prueba similares para otros autores. Nuestros experimentos extendidos en GPT4 y GPT3.5 caracterizan y desacoplan modos comunes de falla en dimensiones como la popularidad de la información, los tipos de restricciones y la disponibilidad de contexto. Los resultados muestran que, en ausencia de contexto, los modelos exhiben limitaciones severas, medidas por información irrelevante, errores factuales e incompletitud, muchos de los cuales se agravan a medida que disminuye la popularidad de la información. Si bien la disponibilidad de contexto mitiga la información irrelevante, no es útil para satisfacer restricciones, identificando barreras fundamentales para la satisfacción de restricciones. Hacemos públicos nuestros aportes para fomentar más investigaciones sobre la mejora de las habilidades de satisfacción de restricciones en futuros modelos.
English
We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More recently, large language models (LLMs) have demonstrated initial emergent abilities in this task. However, many current retrieval benchmarks are either saturated or do not measure constraint satisfaction. Motivated by rising concerns around factual incorrectness and hallucinations of LLMs, we present KITAB, a new dataset for measuring constraint satisfaction abilities of language models. KITAB consists of book-related data across more than 600 authors and 13,000 queries, and also offers an associated dynamic data collection and constraint verification approach for acquiring similar test data for other authors. Our extended experiments on GPT4 and GPT3.5 characterize and decouple common failure modes across dimensions such as information popularity, constraint types, and context availability. Results show that in the absence of context, models exhibit severe limitations as measured by irrelevant information, factual errors, and incompleteness, many of which exacerbate as information popularity decreases. While context availability mitigates irrelevant information, it is not helpful for satisfying constraints, identifying fundamental barriers to constraint satisfaction. We open source our contributions to foster further research on improving constraint satisfaction abilities of future models.
PDF51December 15, 2024