KITAB: Valutazione dei Modelli Linguistici di Grandi Dimensioni sul Soddisfacimento di Vincoli per il Recupero delle Informazioni
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval
October 24, 2023
Autori: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI
Abstract
Studiamo la capacità dei modelli più avanzati di rispondere a query di soddisfazione di vincoli per il recupero di informazioni (ad esempio, "un elenco di gelaterie a San Diego"). In passato, tali query erano considerate compiti che potevano essere risolti solo tramite ricerche web o basi di conoscenza. Più recentemente, i grandi modelli linguistici (LLM) hanno dimostrato capacità emergenti iniziali in questo compito. Tuttavia, molti benchmark di recupero attuali sono saturi o non misurano la soddisfazione dei vincoli. Motivati dalle crescenti preoccupazioni riguardo all'inesattezza fattuale e alle allucinazioni degli LLM, presentiamo KITAB, un nuovo dataset per misurare le capacità di soddisfazione dei vincoli dei modelli linguistici. KITAB consiste in dati relativi a libri di oltre 600 autori e 13.000 query, e offre anche un approccio dinamico di raccolta dati e verifica dei vincoli per acquisire dati di test simili per altri autori. I nostri esperimenti estesi su GPT4 e GPT3.5 caratterizzano e separano le modalità di fallimento comuni lungo dimensioni come la popolarità delle informazioni, i tipi di vincoli e la disponibilità del contesto. I risultati mostrano che, in assenza di contesto, i modelli presentano gravi limitazioni, misurate da informazioni irrilevanti, errori fattuali e incompletezza, molte delle quali si aggravano con la diminuzione della popolarità delle informazioni. Sebbene la disponibilità del contesto mitighi le informazioni irrilevanti, non è utile per soddisfare i vincoli, identificando barriere fondamentali alla soddisfazione dei vincoli. Rendiamo open source i nostri contributi per favorire ulteriori ricerche sul miglioramento delle capacità di soddisfazione dei vincoli dei modelli futuri.
English
We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.