ChatPaper.aiChatPaper

KITAB: Avaliando Modelos de Linguagem de Grande Escala na Satisfação de Restrições para Recuperação de Informação

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

October 24, 2023
Autores: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI

Resumo

Estudamos a capacidade de modelos de última geração em responder a consultas de satisfação de restrições para recuperação de informações (por exemplo, 'uma lista de sorveterias em San Diego'). No passado, tais consultas eram consideradas tarefas que só poderiam ser resolvidas por meio de buscas na web ou bases de conhecimento. Mais recentemente, modelos de linguagem de grande escala (LLMs) demonstraram habilidades emergentes iniciais nessa tarefa. No entanto, muitos benchmarks atuais de recuperação estão saturados ou não medem a satisfação de restrições. Motivados por preocupações crescentes em torno de incorreções factuais e alucinações de LLMs, apresentamos KITAB, um novo conjunto de dados para medir as habilidades de satisfação de restrições de modelos de linguagem. KITAB consiste em dados relacionados a livros de mais de 600 autores e 13.000 consultas, e também oferece uma abordagem associada de coleta dinâmica de dados e verificação de restrições para adquirir dados de teste semelhantes para outros autores. Nossos experimentos estendidos com GPT4 e GPT3.5 caracterizam e desacoplam modos comuns de falha em dimensões como popularidade da informação, tipos de restrições e disponibilidade de contexto. Os resultados mostram que, na ausência de contexto, os modelos exibem limitações severas, medidas por informações irrelevantes, erros factuais e incompletude, muitos dos quais se agravam à medida que a popularidade da informação diminui. Embora a disponibilidade de contexto mitigue informações irrelevantes, ela não é útil para satisfazer restrições, identificando barreiras fundamentais para a satisfação de restrições. Disponibilizamos nossas contribuições em código aberto para fomentar mais pesquisas sobre a melhoria das habilidades de satisfação de restrições de modelos futuros.
English
We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More recently, large language models (LLMs) have demonstrated initial emergent abilities in this task. However, many current retrieval benchmarks are either saturated or do not measure constraint satisfaction. Motivated by rising concerns around factual incorrectness and hallucinations of LLMs, we present KITAB, a new dataset for measuring constraint satisfaction abilities of language models. KITAB consists of book-related data across more than 600 authors and 13,000 queries, and also offers an associated dynamic data collection and constraint verification approach for acquiring similar test data for other authors. Our extended experiments on GPT4 and GPT3.5 characterize and decouple common failure modes across dimensions such as information popularity, constraint types, and context availability. Results show that in the absence of context, models exhibit severe limitations as measured by irrelevant information, factual errors, and incompleteness, many of which exacerbate as information popularity decreases. While context availability mitigates irrelevant information, it is not helpful for satisfying constraints, identifying fundamental barriers to constraint satisfaction. We open source our contributions to foster further research on improving constraint satisfaction abilities of future models.
PDF51February 8, 2026