ChatPaper.aiChatPaper

KITAB : Évaluation des modèles de langage de grande taille sur la satisfaction des contraintes pour la recherche d'information

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

October 24, 2023
Auteurs: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI

Résumé

Nous étudions la capacité des modèles de pointe à répondre à des requêtes de satisfaction de contraintes pour la recherche d'information (par exemple, 'une liste de glaciers à San Diego'). Par le passé, de telles requêtes étaient considérées comme des tâches ne pouvant être résolues que via une recherche web ou des bases de connaissances. Plus récemment, les grands modèles de langage (LLMs) ont démontré des capacités émergentes initiales dans cette tâche. Cependant, de nombreux benchmarks de récupération actuels sont soit saturés, soit ne mesurent pas la satisfaction des contraintes. Motivés par les préoccupations croissantes concernant les erreurs factuelles et les hallucinations des LLMs, nous présentons KITAB, un nouveau jeu de données pour mesurer les capacités de satisfaction de contraintes des modèles de langage. KITAB comprend des données liées aux livres pour plus de 600 auteurs et 13 000 requêtes, et propose également une approche dynamique de collecte de données et de vérification des contraintes pour acquérir des données de test similaires pour d'autres auteurs. Nos expériences approfondies sur GPT4 et GPT3.5 caractérisent et découplent les modes d'échec courants selon des dimensions telles que la popularité de l'information, les types de contraintes et la disponibilité du contexte. Les résultats montrent qu'en l'absence de contexte, les modèles présentent des limitations sévères en termes d'informations non pertinentes, d'erreurs factuelles et d'incomplétude, dont beaucoup s'aggravent à mesure que la popularité de l'information diminue. Bien que la disponibilité du contexte atténue les informations non pertinentes, elle n'est pas utile pour satisfaire les contraintes, identifiant ainsi des barrières fondamentales à la satisfaction des contraintes. Nous rendons nos contributions open source pour favoriser des recherches ultérieures visant à améliorer les capacités de satisfaction de contraintes des futurs modèles.
English
We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More recently, large language models (LLMs) have demonstrated initial emergent abilities in this task. However, many current retrieval benchmarks are either saturated or do not measure constraint satisfaction. Motivated by rising concerns around factual incorrectness and hallucinations of LLMs, we present KITAB, a new dataset for measuring constraint satisfaction abilities of language models. KITAB consists of book-related data across more than 600 authors and 13,000 queries, and also offers an associated dynamic data collection and constraint verification approach for acquiring similar test data for other authors. Our extended experiments on GPT4 and GPT3.5 characterize and decouple common failure modes across dimensions such as information popularity, constraint types, and context availability. Results show that in the absence of context, models exhibit severe limitations as measured by irrelevant information, factual errors, and incompleteness, many of which exacerbate as information popularity decreases. While context availability mitigates irrelevant information, it is not helpful for satisfying constraints, identifying fundamental barriers to constraint satisfaction. We open source our contributions to foster further research on improving constraint satisfaction abilities of future models.
PDF51December 15, 2024