FreshLLMs: Atualizando Modelos de Linguagem de Grande Escala com Aumentação de Mecanismos de Busca

Resumo

A maioria dos grandes modelos de linguagem (LLMs) é treinada uma única vez e nunca atualizada; assim, eles carecem da capacidade de se adaptar dinamicamente ao nosso mundo em constante mudança. Neste trabalho, realizamos um estudo detalhado da factualidade do texto gerado por LLMs no contexto de responder a perguntas que testam o conhecimento atual do mundo. Especificamente, introduzimos o FreshQA, um novo benchmark dinâmico de perguntas e respostas que abrange uma diversidade de tipos de questões e respostas, incluindo perguntas que exigem conhecimento do mundo em rápida mudança, bem como perguntas com premissas falsas que precisam ser desmascaradas. Avaliamos uma variedade de LLMs, tanto fechados quanto de código aberto, sob um procedimento de avaliação de dois modos que nos permite medir tanto a correção quanto a alucinação. Por meio de avaliações humanas envolvendo mais de 50 mil julgamentos, destacamos as limitações desses modelos e demonstramos um espaço significativo para melhorias: por exemplo, todos os modelos (independentemente do tamanho) têm dificuldades com perguntas que envolvem conhecimento em rápida mudança e premissas falsas. Motivados por esses resultados, apresentamos o FreshPrompt, um método simples de prompt few-shot que aumenta substancialmente o desempenho de um LLM no FreshQA ao incorporar informações relevantes e atualizadas recuperadas de um mecanismo de busca no prompt. Nossos experimentos mostram que o FreshPrompt supera tanto métodos concorrentes de prompt aumentado por mecanismos de busca, como o Self-Ask (Press et al., 2022), quanto sistemas comerciais como o Perplexity.AI. Uma análise mais aprofundada do FreshPrompt revela que tanto o número de evidências recuperadas quanto sua ordem desempenham um papel crucial na influência da correção das respostas geradas pelo LLM. Além disso, instruir o LLM a gerar respostas concisas e diretas ajuda a reduzir a alucinação em comparação com o incentivo a respostas mais verbosas. Para facilitar trabalhos futuros, disponibilizamos o FreshQA em github.com/freshllms/freshqa e nos comprometemos a atualizá-lo em intervalos regulares.

English

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

FreshLLMs: Atualizando Modelos de Linguagem de Grande Escala com Aumentação de Mecanismos de Busca

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Resumo

Support