FreshLLMs: Обновление больших языковых моделей с помощью расширения поисковыми системами
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
October 5, 2023
Авторы: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI
Аннотация
Большинство крупных языковых моделей (LLM) обучаются один раз и никогда не обновляются, что лишает их способности динамически адаптироваться к постоянно меняющемуся миру. В данной работе мы проводим детальное исследование фактической точности текста, генерируемого LLM, в контексте ответов на вопросы, проверяющие актуальные знания о мире. В частности, мы представляем FreshQA — новый динамический бенчмарк для вопросов и ответов, охватывающий разнообразные типы вопросов и ответов, включая вопросы, требующие знаний о быстро меняющихся событиях, а также вопросы с ложными предпосылками, которые необходимо опровергнуть. Мы тестируем широкий спектр как закрытых, так и открытых LLM с использованием двухэтапной процедуры оценки, которая позволяет измерять как правильность, так и склонность к галлюцинациям. На основе человеческой оценки, включающей более 50 тысяч суждений, мы выявляем ограничения этих моделей и демонстрируем значительный потенциал для улучшения: например, все модели (независимо от их размера) испытывают трудности с вопросами, связанными с быстро меняющимися знаниями и ложными предпосылками. Вдохновленные этими результатами, мы представляем FreshPrompt — простой метод немногих примеров (few-shot prompting), который значительно повышает производительность LLM на FreshQA за счет включения актуальной информации, извлеченной из поисковой системы, в промпт. Наши эксперименты показывают, что FreshPrompt превосходит как конкурирующие методы, такие как Self-Ask (Press et al., 2022), так и коммерческие системы, такие как Perplexity.AI. Дополнительный анализ FreshPrompt показывает, что как количество извлеченных доказательств, так и их порядок играют ключевую роль в влиянии на правильность ответов, генерируемых LLM. Кроме того, указание модели генерировать краткие и прямые ответы помогает снизить склонность к галлюцинациям по сравнению с поощрением более пространных ответов. Для содействия будущим исследованиям мы публикуем FreshQA на github.com/freshllms/freshqa и обязуемся регулярно обновлять его.
English
Most large language models (LLMs) are trained once and never updated; thus,
they lack the ability to dynamically adapt to our ever-changing world. In this
work, we perform a detailed study of the factuality of LLM-generated text in
the context of answering questions that test current world knowledge.
Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a
diverse range of question and answer types, including questions that require
fast-changing world knowledge as well as questions with false premises that
need to be debunked. We benchmark a diverse array of both closed and
open-source LLMs under a two-mode evaluation procedure that allows us to
measure both correctness and hallucination. Through human evaluations involving
more than 50K judgments, we shed light on limitations of these models and
demonstrate significant room for improvement: for instance, all models
(regardless of model size) struggle on questions that involve fast-changing
knowledge and false premises. Motivated by these results, we present
FreshPrompt, a simple few-shot prompting method that substantially boosts the
performance of an LLM on FreshQA by incorporating relevant and up-to-date
information retrieved from a search engine into the prompt. Our experiments
show that FreshPrompt outperforms both competing search engine-augmented
prompting methods such as Self-Ask (Press et al., 2022) as well as commercial
systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that
both the number of retrieved evidences and their order play a key role in
influencing the correctness of LLM-generated answers. Additionally, instructing
the LLM to generate concise and direct answers helps reduce hallucination
compared to encouraging more verbose answers. To facilitate future work, we
release FreshQA at github.com/freshllms/freshqa and commit to updating it at
regular intervals.