ChatPaper.aiChatPaper

FreshLLMs: Grote Taalmodellen Verfrissen met Zoekmachine-Augmentatie

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

October 5, 2023
Auteurs: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI

Samenvatting

De meeste grote taalmodellen (LLMs) worden eenmaal getraind en nooit bijgewerkt; daardoor ontbreekt het hen aan het vermogen om zich dynamisch aan te passen aan onze voortdurend veranderende wereld. In dit werk voeren we een gedetailleerde studie uit naar de feitelijkheid van door LLM gegenereerde tekst in de context van het beantwoorden van vragen die actuele wereldkennis testen. Specifiek introduceren we FreshQA, een nieuwe dynamische QA-benchmark die een diverse reeks vraag- en antwoordtypen omvat, inclusief vragen die snel veranderende wereldkennis vereisen en vragen met valse premissen die ontkracht moeten worden. We benchmarken een diverse reeks van zowel gesloten als open-source LLMs onder een tweeledige evaluatieprocedure die ons in staat stelt zowel correctheid als hallucinatie te meten. Door middel van menselijke evaluaties met meer dan 50K oordelen, werpen we licht op de beperkingen van deze modellen en tonen we aan dat er aanzienlijke ruimte voor verbetering is: bijvoorbeeld worstelen alle modellen (ongeacht de modelgrootte) met vragen die snel veranderende kennis en valse premissen betreffen. Gemotiveerd door deze resultaten presenteren we FreshPrompt, een eenvoudige few-shot prompting-methode die de prestaties van een LLM op FreshQA aanzienlijk verbetert door relevante en actuele informatie die uit een zoekmachine wordt opgehaald, in de prompt op te nemen. Onze experimenten tonen aan dat FreshPrompt zowel concurrerende zoekmachine-augmented prompting-methoden zoals Self-Ask (Press et al., 2022) als commerciële systemen zoals Perplexity.AI overtreft. Verdere analyse van FreshPrompt onthult dat zowel het aantal opgehaalde bewijsstukken als hun volgorde een cruciale rol spelen bij het beïnvloeden van de correctheid van door LLM gegenereerde antwoorden. Daarnaast helpt het instrueren van het LLM om beknopte en directe antwoorden te genereren om hallucinatie te verminderen in vergelijking met het aanmoedigen van meer uitgebreide antwoorden. Om toekomstig werk te vergemakkelijken, maken we FreshQA beschikbaar op github.com/freshllms/freshqa en committeren we ons om het regelmatig bij te werken.
English
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
PDF201March 22, 2026