KITAB: Evaluatie van LLM's op Constraintbevrediging voor Informatie Retrieval
KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval
October 24, 2023
Auteurs: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
cs.AI
Samenvatting
We bestuderen het vermogen van state-of-the-art modellen om beperkingsvoldoende vragen te beantwoorden voor informatiezoekopdrachten (bijv. 'een lijst van ijssalons in San Diego'). In het verleden werden dergelijke vragen beschouwd als taken die alleen konden worden opgelost via webzoekopdrachten of kennisbanken. Meer recentelijk hebben grote taalmmodellen (LLM's) eerste opkomende vaardigheden laten zien bij deze taak. Veel huidige benchmarks voor informatiezoekopdrachten zijn echter ofwel verzadigd of meten geen beperkingsvoldoening. Gemotiveerd door toenemende zorgen over feitelijke onjuistheden en hallucinaties van LLM's, presenteren we KITAB, een nieuwe dataset voor het meten van beperkingsvoldoende vaardigheden van taalmmodellen. KITAB bestaat uit boekgerelateerde gegevens van meer dan 600 auteurs en 13.000 vragen, en biedt ook een bijbehorende dynamische gegevensverzamelings- en beperkingsverificatieaanpak voor het verkrijgen van vergelijkbare testgegevens voor andere auteurs. Onze uitgebreide experimenten met GPT4 en GPT3.5 karakteriseren en ontkoppelen veelvoorkomende faalmodi over dimensies zoals informatiepopulariteit, beperkingstypen en contextbeschikbaarheid. Resultaten tonen aan dat modellen in afwezigheid van context ernstige beperkingen vertonen, zoals gemeten door irrelevante informatie, feitelijke fouten en onvolledigheid, waarvan vele verergeren naarmate de informatiepopulariteit afneemt. Hoewel contextbeschikbaarheid irrelevante informatie vermindert, is het niet behulpzaam voor het voldoen aan beperkingen, wat fundamentele barrières voor beperkingsvoldoening blootlegt. We maken onze bijdragen open source om verder onderzoek te bevorderen naar het verbeteren van beperkingsvoldoende vaardigheden van toekomstige modellen.
English
We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.