KITAB: Valutazione dei Modelli Linguistici di Grandi Dimensioni sul Soddisfacimento di Vincoli per il Recupero delle Informazioni

Abstract

Studiamo la capacità dei modelli più avanzati di rispondere a query di soddisfazione di vincoli per il recupero di informazioni (ad esempio, "un elenco di gelaterie a San Diego"). In passato, tali query erano considerate compiti che potevano essere risolti solo tramite ricerche web o basi di conoscenza. Più recentemente, i grandi modelli linguistici (LLM) hanno dimostrato capacità emergenti iniziali in questo compito. Tuttavia, molti benchmark di recupero attuali sono saturi o non misurano la soddisfazione dei vincoli. Motivati dalle crescenti preoccupazioni riguardo all'inesattezza fattuale e alle allucinazioni degli LLM, presentiamo KITAB, un nuovo dataset per misurare le capacità di soddisfazione dei vincoli dei modelli linguistici. KITAB consiste in dati relativi a libri di oltre 600 autori e 13.000 query, e offre anche un approccio dinamico di raccolta dati e verifica dei vincoli per acquisire dati di test simili per altri autori. I nostri esperimenti estesi su GPT4 e GPT3.5 caratterizzano e separano le modalità di fallimento comuni lungo dimensioni come la popolarità delle informazioni, i tipi di vincoli e la disponibilità del contesto. I risultati mostrano che, in assenza di contesto, i modelli presentano gravi limitazioni, misurate da informazioni irrilevanti, errori fattuali e incompletezza, molte delle quali si aggravano con la diminuzione della popolarità delle informazioni. Sebbene la disponibilità del contesto mitighi le informazioni irrilevanti, non è utile per soddisfare i vincoli, identificando barriere fondamentali alla soddisfazione dei vincoli. Rendiamo open source i nostri contributi per favorire ulteriori ricerche sul miglioramento delle capacità di soddisfazione dei vincoli dei modelli futuri.

English

We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More recently, large language models (LLMs) have demonstrated initial emergent abilities in this task. However, many current retrieval benchmarks are either saturated or do not measure constraint satisfaction. Motivated by rising concerns around factual incorrectness and hallucinations of LLMs, we present KITAB, a new dataset for measuring constraint satisfaction abilities of language models. KITAB consists of book-related data across more than 600 authors and 13,000 queries, and also offers an associated dynamic data collection and constraint verification approach for acquiring similar test data for other authors. Our extended experiments on GPT4 and GPT3.5 characterize and decouple common failure modes across dimensions such as information popularity, constraint types, and context availability. Results show that in the absence of context, models exhibit severe limitations as measured by irrelevant information, factual errors, and incompleteness, many of which exacerbate as information popularity decreases. While context availability mitigates irrelevant information, it is not helpful for satisfying constraints, identifying fundamental barriers to constraint satisfaction. We open source our contributions to foster further research on improving constraint satisfaction abilities of future models.

KITAB: Valutazione dei Modelli Linguistici di Grandi Dimensioni sul Soddisfacimento di Vincoli per il Recupero delle Informazioni

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

Abstract

Support