FreshLLMs: Grote Taalmodellen Verfrissen met Zoekmachine-Augmentatie
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
October 5, 2023
Auteurs: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI
Samenvatting
De meeste grote taalmodellen (LLMs) worden eenmaal getraind en nooit bijgewerkt; daardoor ontbreekt het hen aan het vermogen om zich dynamisch aan te passen aan onze voortdurend veranderende wereld. In dit werk voeren we een gedetailleerde studie uit naar de feitelijkheid van door LLM gegenereerde tekst in de context van het beantwoorden van vragen die actuele wereldkennis testen. Specifiek introduceren we FreshQA, een nieuwe dynamische QA-benchmark die een diverse reeks vraag- en antwoordtypen omvat, inclusief vragen die snel veranderende wereldkennis vereisen en vragen met valse premissen die ontkracht moeten worden. We benchmarken een diverse reeks van zowel gesloten als open-source LLMs onder een tweeledige evaluatieprocedure die ons in staat stelt zowel correctheid als hallucinatie te meten. Door middel van menselijke evaluaties met meer dan 50K oordelen, werpen we licht op de beperkingen van deze modellen en tonen we aan dat er aanzienlijke ruimte voor verbetering is: bijvoorbeeld worstelen alle modellen (ongeacht de modelgrootte) met vragen die snel veranderende kennis en valse premissen betreffen. Gemotiveerd door deze resultaten presenteren we FreshPrompt, een eenvoudige few-shot prompting-methode die de prestaties van een LLM op FreshQA aanzienlijk verbetert door relevante en actuele informatie die uit een zoekmachine wordt opgehaald, in de prompt op te nemen. Onze experimenten tonen aan dat FreshPrompt zowel concurrerende zoekmachine-augmented prompting-methoden zoals Self-Ask (Press et al., 2022) als commerciële systemen zoals Perplexity.AI overtreft. Verdere analyse van FreshPrompt onthult dat zowel het aantal opgehaalde bewijsstukken als hun volgorde een cruciale rol spelen bij het beïnvloeden van de correctheid van door LLM gegenereerde antwoorden. Daarnaast helpt het instrueren van het LLM om beknopte en directe antwoorden te genereren om hallucinatie te verminderen in vergelijking met het aanmoedigen van meer uitgebreide antwoorden. Om toekomstig werk te vergemakkelijken, maken we FreshQA beschikbaar op github.com/freshllms/freshqa en committeren we ons om het regelmatig bij te werken.
English
Most large language models (LLMs) are trained once and never updated; thus,
they lack the ability to dynamically adapt to our ever-changing world. In this
work, we perform a detailed study of the factuality of LLM-generated text in
the context of answering questions that test current world knowledge.
Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a
diverse range of question and answer types, including questions that require
fast-changing world knowledge as well as questions with false premises that
need to be debunked. We benchmark a diverse array of both closed and
open-source LLMs under a two-mode evaluation procedure that allows us to
measure both correctness and hallucination. Through human evaluations involving
more than 50K judgments, we shed light on limitations of these models and
demonstrate significant room for improvement: for instance, all models
(regardless of model size) struggle on questions that involve fast-changing
knowledge and false premises. Motivated by these results, we present
FreshPrompt, a simple few-shot prompting method that substantially boosts the
performance of an LLM on FreshQA by incorporating relevant and up-to-date
information retrieved from a search engine into the prompt. Our experiments
show that FreshPrompt outperforms both competing search engine-augmented
prompting methods such as Self-Ask (Press et al., 2022) as well as commercial
systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that
both the number of retrieved evidences and their order play a key role in
influencing the correctness of LLM-generated answers. Additionally, instructing
the LLM to generate concise and direct answers helps reduce hallucination
compared to encouraging more verbose answers. To facilitate future work, we
release FreshQA at github.com/freshllms/freshqa and commit to updating it at
regular intervals.