FreshLLMs : Actualisation des grands modèles de langage par l'augmentation avec les moteurs de recherche
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
October 5, 2023
papers.authors: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI
papers.abstract
La plupart des grands modèles de langage (LLMs) sont entraînés une seule fois et jamais mis à jour ; ils manquent donc de la capacité à s'adapter dynamiquement à notre monde en constante évolution. Dans ce travail, nous menons une étude détaillée de la factualité des textes générés par les LLMs dans le contexte de réponses à des questions testant les connaissances actuelles du monde. Plus précisément, nous introduisons FreshQA, un nouveau benchmark dynamique de questions-réponses englobant une diversité de types de questions et de réponses, y compris des questions nécessitant des connaissances mondiales à évolution rapide ainsi que des questions contenant des prémisses fausses qui doivent être démenties. Nous évaluons un large éventail de LLMs, à la fois propriétaires et open-source, selon une procédure d'évaluation à deux modes qui nous permet de mesurer à la fois la justesse et les hallucinations. Grâce à des évaluations humaines impliquant plus de 50 000 jugements, nous mettons en lumière les limites de ces modèles et démontrons une marge d'amélioration significative : par exemple, tous les modèles (quelle que soit leur taille) peinent sur les questions impliquant des connaissances à évolution rapide et des prémisses fausses. Motivés par ces résultats, nous présentons FreshPrompt, une méthode simple de prompting en few-shot qui améliore considérablement les performances d'un LLM sur FreshQA en intégrant des informations pertinentes et à jour récupérées d'un moteur de recherche dans le prompt. Nos expériences montrent que FreshPrompt surpasse à la fois les méthodes concurrentes de prompting assisté par moteur de recherche, comme Self-Ask (Press et al., 2022), ainsi que les systèmes commerciaux tels que Perplexity.AI. Une analyse plus approfondie de FreshPrompt révèle que le nombre de preuves récupérées et leur ordre jouent un rôle clé dans l'influence de la justesse des réponses générées par les LLMs. De plus, demander au LLM de générer des réponses concises et directes aide à réduire les hallucinations par rapport à l'encouragement de réponses plus verbeuses. Pour faciliter les travaux futurs, nous publions FreshQA sur github.com/freshllms/freshqa et nous nous engageons à le mettre à jour à intervalles réguliers.
English
Most large language models (LLMs) are trained once and never updated; thus,
they lack the ability to dynamically adapt to our ever-changing world. In this
work, we perform a detailed study of the factuality of LLM-generated text in
the context of answering questions that test current world knowledge.
Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a
diverse range of question and answer types, including questions that require
fast-changing world knowledge as well as questions with false premises that
need to be debunked. We benchmark a diverse array of both closed and
open-source LLMs under a two-mode evaluation procedure that allows us to
measure both correctness and hallucination. Through human evaluations involving
more than 50K judgments, we shed light on limitations of these models and
demonstrate significant room for improvement: for instance, all models
(regardless of model size) struggle on questions that involve fast-changing
knowledge and false premises. Motivated by these results, we present
FreshPrompt, a simple few-shot prompting method that substantially boosts the
performance of an LLM on FreshQA by incorporating relevant and up-to-date
information retrieved from a search engine into the prompt. Our experiments
show that FreshPrompt outperforms both competing search engine-augmented
prompting methods such as Self-Ask (Press et al., 2022) as well as commercial
systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that
both the number of retrieved evidences and their order play a key role in
influencing the correctness of LLM-generated answers. Additionally, instructing
the LLM to generate concise and direct answers helps reduce hallucination
compared to encouraging more verbose answers. To facilitate future work, we
release FreshQA at github.com/freshllms/freshqa and commit to updating it at
regular intervals.