FreshLLMs: Aggiornamento dei Modelli Linguistici di Grande Dimensione con l'Aumento tramite Motore di Ricerca

Abstract

La maggior parte dei grandi modelli linguistici (LLM) viene addestrata una sola volta e non viene mai aggiornata; pertanto, mancano della capacità di adattarsi dinamicamente al nostro mondo in continua evoluzione. In questo lavoro, conduciamo uno studio dettagliato sulla veridicità del testo generato dagli LLM nel contesto della risposta a domande che testano la conoscenza attuale del mondo. Nello specifico, introduciamo FreshQA, un nuovo benchmark dinamico di domande e risposte che comprende una vasta gamma di tipologie di domande e risposte, incluse domande che richiedono conoscenze in rapida evoluzione e domande con premesse false che devono essere smontate. Valutiamo una serie diversificata di LLM sia proprietari che open-source attraverso una procedura di valutazione a due modalità che ci permette di misurare sia la correttezza che l'allucinazione. Attraverso valutazioni umane che coinvolgono più di 50.000 giudizi, mettiamo in luce i limiti di questi modelli e dimostriamo un significativo margine di miglioramento: ad esempio, tutti i modelli (indipendentemente dalle dimensioni) hanno difficoltà con le domande che coinvolgono conoscenze in rapida evoluzione e premesse false. Motivati da questi risultati, presentiamo FreshPrompt, un semplice metodo di prompting few-shot che migliora sostanzialmente le prestazioni di un LLM su FreshQA incorporando informazioni rilevanti e aggiornate recuperate da un motore di ricerca nel prompt. I nostri esperimenti mostrano che FreshPrompt supera sia i metodi concorrenti di prompting aumentato con motori di ricerca, come Self-Ask (Press et al., 2022), sia i sistemi commerciali come Perplexity.AI. Un'ulteriore analisi di FreshPrompt rivela che sia il numero di prove recuperate che il loro ordine giocano un ruolo chiave nell'influenzare la correttezza delle risposte generate dagli LLM. Inoltre, istruire l'LLM a generare risposte concise e dirette aiuta a ridurre l'allucinazione rispetto all'incoraggiamento di risposte più verbose. Per facilitare il lavoro futuro, rilasciamo FreshQA su github.com/freshllms/freshqa e ci impegniamo ad aggiornarlo a intervalli regolari.

English

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

FreshLLMs: Aggiornamento dei Modelli Linguistici di Grande Dimensione con l'Aumento tramite Motore di Ricerca

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Abstract

Support