ChatPaper.aiChatPaper

FreshLLMs : Actualisation des grands modèles de langage par l'augmentation avec les moteurs de recherche

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

October 5, 2023
papers.authors: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI

papers.abstract

La plupart des grands modèles de langage (LLMs) sont entraînés une seule fois et jamais mis à jour ; ils manquent donc de la capacité à s'adapter dynamiquement à notre monde en constante évolution. Dans ce travail, nous menons une étude détaillée de la factualité des textes générés par les LLMs dans le contexte de réponses à des questions testant les connaissances actuelles du monde. Plus précisément, nous introduisons FreshQA, un nouveau benchmark dynamique de questions-réponses englobant une diversité de types de questions et de réponses, y compris des questions nécessitant des connaissances mondiales à évolution rapide ainsi que des questions contenant des prémisses fausses qui doivent être démenties. Nous évaluons un large éventail de LLMs, à la fois propriétaires et open-source, selon une procédure d'évaluation à deux modes qui nous permet de mesurer à la fois la justesse et les hallucinations. Grâce à des évaluations humaines impliquant plus de 50 000 jugements, nous mettons en lumière les limites de ces modèles et démontrons une marge d'amélioration significative : par exemple, tous les modèles (quelle que soit leur taille) peinent sur les questions impliquant des connaissances à évolution rapide et des prémisses fausses. Motivés par ces résultats, nous présentons FreshPrompt, une méthode simple de prompting en few-shot qui améliore considérablement les performances d'un LLM sur FreshQA en intégrant des informations pertinentes et à jour récupérées d'un moteur de recherche dans le prompt. Nos expériences montrent que FreshPrompt surpasse à la fois les méthodes concurrentes de prompting assisté par moteur de recherche, comme Self-Ask (Press et al., 2022), ainsi que les systèmes commerciaux tels que Perplexity.AI. Une analyse plus approfondie de FreshPrompt révèle que le nombre de preuves récupérées et leur ordre jouent un rôle clé dans l'influence de la justesse des réponses générées par les LLMs. De plus, demander au LLM de générer des réponses concises et directes aide à réduire les hallucinations par rapport à l'encouragement de réponses plus verbeuses. Pour faciliter les travaux futurs, nous publions FreshQA sur github.com/freshllms/freshqa et nous nous engageons à le mettre à jour à intervalles réguliers.
English
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
PDF201December 15, 2024