ChatPaper.aiChatPaper

FreshLLMs: Aktualisierung von Large Language Models durch Suchmaschinen-Erweiterung

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

October 5, 2023
papers.authors: Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong
cs.AI

papers.abstract

Die meisten großen Sprachmodelle (LLMs) werden einmal trainiert und nie aktualisiert; daher fehlt ihnen die Fähigkeit, sich dynamisch an unsere sich ständig verändernde Welt anzupassen. In dieser Arbeit führen wir eine detaillierte Studie zur Faktizität von LLM-generierten Texten im Kontext der Beantwortung von Fragen durch, die aktuelles Weltwissen testen. Insbesondere stellen wir FreshQA vor, einen neuartigen dynamischen QA-Benchmark, der eine Vielzahl von Frage- und Antworttypen umfasst, einschließlich Fragen, die schnell wechselndes Weltwissen erfordern, sowie Fragen mit falschen Prämissen, die widerlegt werden müssen. Wir bewerten eine Vielzahl von sowohl geschlossenen als auch Open-Source-LLMs unter einem zweistufigen Evaluationsverfahren, das es uns ermöglicht, sowohl die Korrektheit als auch die Halluzination zu messen. Durch menschliche Bewertungen mit mehr als 50.000 Urteilen beleuchten wir die Grenzen dieser Modelle und zeigen erheblichen Verbesserungsbedarf auf: Beispielsweise haben alle Modelle (unabhängig von der Modellgröße) Schwierigkeiten mit Fragen, die schnell wechselndes Wissen und falsche Prämissen betreffen. Motiviert durch diese Ergebnisse präsentieren wir FreshPrompt, eine einfache Few-Shot-Prompting-Methode, die die Leistung eines LLMs auf FreshQA erheblich steigert, indem relevante und aktuelle Informationen, die von einer Suchmaschine abgerufen werden, in den Prompt integriert werden. Unsere Experimente zeigen, dass FreshPrompt sowohl konkurrierende Suchmaschinen-gestützte Prompting-Methoden wie Self-Ask (Press et al., 2022) als auch kommerzielle Systeme wie Perplexity.AI übertrifft. Eine weitere Analyse von FreshPrompt zeigt, dass sowohl die Anzahl der abgerufenen Belege als auch deren Reihenfolge eine Schlüsselrolle bei der Beeinflussung der Korrektheit von LLM-generierten Antworten spielen. Zusätzlich hilft die Anweisung an das LLM, prägnante und direkte Antworten zu generieren, die Halluzination im Vergleich zu ausführlicheren Antworten zu reduzieren. Um zukünftige Arbeiten zu erleichtern, veröffentlichen wir FreshQA unter github.com/freshllms/freshqa und verpflichten uns, es in regelmäßigen Abständen zu aktualisieren.
English
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
PDF201December 15, 2024