ChatPaper.aiChatPaper

FreshLLMs: Actualización de Modelos de Lenguaje de Gran Escala con Aumentación mediante Motores de Búsqueda

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

October 5, 2023
Autores: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI

Resumen

La mayoría de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan una vez y nunca se actualizan; por lo tanto, carecen de la capacidad de adaptarse dinámicamente a nuestro mundo en constante cambio. En este trabajo, realizamos un estudio detallado sobre la factualidad del texto generado por LLMs en el contexto de responder preguntas que evalúan el conocimiento actual del mundo. Específicamente, presentamos FreshQA, un nuevo benchmark dinámico de preguntas y respuestas que abarca una amplia gama de tipos de preguntas y respuestas, incluyendo preguntas que requieren conocimiento del mundo que cambia rápidamente, así como preguntas con premisas falsas que deben ser desmentidas. Evaluamos una variedad diversa de LLMs tanto cerrados como de código abierto bajo un procedimiento de evaluación de dos modos que nos permite medir tanto la corrección como la alucinación. A través de evaluaciones humanas que involucran más de 50K juicios, arrojamos luz sobre las limitaciones de estos modelos y demostramos un margen significativo de mejora: por ejemplo, todos los modelos (independientemente de su tamaño) tienen dificultades con preguntas que involucran conocimiento que cambia rápidamente y premisas falsas. Motivados por estos resultados, presentamos FreshPrompt, un método simple de prompting de pocos ejemplos que mejora sustancialmente el rendimiento de un LLM en FreshQA al incorporar información relevante y actualizada recuperada de un motor de búsqueda en el prompt. Nuestros experimentos muestran que FreshPrompt supera tanto a métodos competidores de prompting aumentado con motores de búsqueda, como Self-Ask (Press et al., 2022), como a sistemas comerciales como Perplexity.AI. Un análisis más profundo de FreshPrompt revela que tanto el número de evidencias recuperadas como su orden juegan un papel clave en influir en la corrección de las respuestas generadas por los LLMs. Además, instruir al LLM para que genere respuestas concisas y directas ayuda a reducir la alucinación en comparación con fomentar respuestas más verbosas. Para facilitar trabajos futuros, publicamos FreshQA en github.com/freshllms/freshqa y nos comprometemos a actualizarlo a intervalos regulares.
English
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
PDF201December 15, 2024