ChatPaper.aiChatPaper

KITAB: Bewertung von LLMs hinsichtlich der Einschränkungsbefriedigung bei der Informationsbeschaffung

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

October 24, 2023
Autoren: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI

Zusammenfassung

Wir untersuchen die Fähigkeit modernster Modelle, Anfragen zur Einschränkungserfüllung für die Informationsbeschaffung zu beantworten (z. B. „eine Liste von Eisdielen in San Diego“). In der Vergangenheit wurden solche Anfragen als Aufgaben betrachtet, die nur über Websuche oder Wissensdatenbanken gelöst werden konnten. In jüngster Zeit haben große Sprachmodelle (LLMs) erste emergente Fähigkeiten bei dieser Aufgabe gezeigt. Viele derzeitige Retrieval-Benchmarks sind jedoch entweder gesättigt oder messen keine Einschränkungserfüllung. Angesichts zunehmender Bedenken hinsichtlich faktischer Ungenauigkeiten und Halluzinationen von LLMs präsentieren wir KITAB, einen neuen Datensatz zur Messung der Einschränkungserfüllungsfähigkeiten von Sprachmodellen. KITAB besteht aus buchbezogenen Daten von über 600 Autoren und 13.000 Anfragen und bietet zudem einen zugehörigen dynamischen Datenerfassungs- und Einschränkungsüberprüfungsansatz, um ähnliche Testdaten für andere Autoren zu sammeln. Unsere erweiterten Experimente mit GPT4 und GPT3.5 charakterisieren und entkoppeln häufige Fehlermodi in Dimensionen wie Informationspopularität, Einschränkungstypen und Kontextverfügbarkeit. Die Ergebnisse zeigen, dass Modelle bei fehlendem Kontext erhebliche Einschränkungen aufweisen, gemessen an irrelevanten Informationen, faktischen Fehlern und Unvollständigkeit, von denen viele sich verschärfen, wenn die Informationspopularität abnimmt. Während die Kontextverfügbarkeit irrelevante Informationen reduziert, hilft sie nicht bei der Erfüllung von Einschränkungen, was grundlegende Barrieren für die Einschränkungserfüllung aufzeigt. Wir stellen unsere Beiträge als Open Source zur Verfügung, um weitere Forschungen zur Verbesserung der Einschränkungserfüllungsfähigkeiten zukünftiger Modelle zu fördern.
English
We study the ability of state-of-the art models to answer constraint satisfaction queries for information retrieval (e.g., 'a list of ice cream shops in San Diego'). In the past, such queries were considered to be tasks that could only be solved via web-search or knowledge bases. More recently, large language models (LLMs) have demonstrated initial emergent abilities in this task. However, many current retrieval benchmarks are either saturated or do not measure constraint satisfaction. Motivated by rising concerns around factual incorrectness and hallucinations of LLMs, we present KITAB, a new dataset for measuring constraint satisfaction abilities of language models. KITAB consists of book-related data across more than 600 authors and 13,000 queries, and also offers an associated dynamic data collection and constraint verification approach for acquiring similar test data for other authors. Our extended experiments on GPT4 and GPT3.5 characterize and decouple common failure modes across dimensions such as information popularity, constraint types, and context availability. Results show that in the absence of context, models exhibit severe limitations as measured by irrelevant information, factual errors, and incompleteness, many of which exacerbate as information popularity decreases. While context availability mitigates irrelevant information, it is not helpful for satisfying constraints, identifying fundamental barriers to constraint satisfaction. We open source our contributions to foster further research on improving constraint satisfaction abilities of future models.
PDF51December 15, 2024