Wann sprechen, wann sich enthalten: Kontrastives Decodieren mit Enthaltung
When to Speak, When to Abstain: Contrastive Decoding with Abstention
December 17, 2024
Autoren: Hyuhng Joon Kim, Youna Kim, Sang-goo Lee, Taeuk Kim
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen eine außergewöhnliche Leistung über verschiedene Aufgaben hinweg, indem sie sowohl auf vorab trainiertes Wissen (d.h. parametrisches Wissen) als auch auf externes Wissen (d.h. kontextuelles Wissen) zurückgreifen. Obwohl erhebliche Anstrengungen unternommen wurden, um beide Formen des Wissens zu nutzen, bleiben Szenarien, in denen das Modell über kein relevantes Wissen verfügt, weitgehend unerforscht. Solche Einschränkungen können zu Problemen wie Halluzinationen führen, was die Zuverlässigkeit verringert und potenzielle Risiken in hochsensiblen Anwendungen verursacht. Um solche Einschränkungen anzugehen, erweitert diese Arbeit den Aufgabenbereich, um Fälle zu umfassen, in denen die Anfrage des Benutzers aufgrund fehlenden relevanten Wissens nicht erfüllt werden kann. Zu diesem Zweck führen wir das Kontrastive Dekodieren mit Enthaltung (CDA) ein, eine trainingsfreie Dekodierungsmethode, die LLMs befähigt, Antworten zu generieren, wenn relevantes Wissen verfügbar ist, und sich anderweitig zu enthalten. CDA bewertet die Relevanz jedes Wissens für eine gegebene Abfrage und bestimmt adaptiv, welches Wissen priorisiert oder komplett ignoriert werden soll. Umfangreiche Experimente mit vier LLMs auf drei Frage-Antwort-Datensätzen zeigen, dass CDA in der Lage ist, gleichzeitig genaue Generierung und Enthaltung effektiv durchzuführen. Diese Ergebnisse unterstreichen das Potenzial von CDA, die Anwendbarkeit von LLMs zu erweitern, die Zuverlässigkeit zu verbessern und das Vertrauen der Benutzer zu wahren.
English
Large Language Models (LLMs) demonstrate exceptional performance across
diverse tasks by leveraging both pre-trained knowledge (i.e., parametric
knowledge) and external knowledge (i.e., contextual knowledge). While
substantial efforts have been made to leverage both forms of knowledge,
scenarios in which the model lacks any relevant knowledge remain underexplored.
Such limitations can result in issues like hallucination, causing reduced
reliability and potential risks in high-stakes applications. To address such
limitations, this paper extends the task scope to encompass cases where the
user's request cannot be fulfilled due to the lack of relevant knowledge. To
this end, we introduce Contrastive Decoding with Abstention (CDA), a
training-free decoding method that empowers LLMs to generate responses when
relevant knowledge is available and to abstain otherwise. CDA evaluates the
relevance of each knowledge for a given query, adaptively determining which
knowledge to prioritize or which to completely ignore. Extensive experiments
with four LLMs on three question-answering datasets demonstrate that CDA can
effectively perform accurate generation and abstention simultaneously. These
findings highlight CDA's potential to broaden the applicability of LLMs,
enhancing reliability and preserving user trust.Summary
AI-Generated Summary