Interne Konsistenz und Selbst-Feedback in großen Sprachmodellen: Eine Übersicht
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Autoren: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sollen präzise reagieren, zeigen jedoch häufig mangelhaftes Denken oder erzeugen halluzinatorische Inhalte. Um diesen Herausforderungen zu begegnen, wurden Studien mit dem Präfix "Self-" wie Self-Konsistenz, Self-Verbesserung und Self-Verfeinerung initiiert. Sie haben eine Gemeinsamkeit: LLMs bewerten und aktualisieren sich selbst, um die Probleme zu mildern. Dennoch fehlt es diesen Bemühungen an einer vereinheitlichten Perspektive zur Zusammenfassung, da bestehende Umfragen hauptsächlich auf Kategorisierung abzielen, ohne die Motivationen hinter diesen Arbeiten zu untersuchen.
In diesem Artikel fassen wir einen theoretischen Rahmen zusammen, genannt Interne Konsistenz, der einheitliche Erklärungen für Phänomene wie den Mangel an Denken und das Vorhandensein von Halluzinationen bietet. Interne Konsistenz bewertet die Kohärenz zwischen den latenten Schichten, Decodierungsschichten und Antwortschichten von LLMs basierend auf Abtastmethoden. Aufbauend auf dem Rahmen der Internen Konsistenz stellen wir einen schlanken, aber effektiven theoretischen Rahmen vor, der in der Lage ist, die Interne Konsistenz zu erkunden, genannt Self-Feedback. Der Self-Feedback-Rahmen besteht aus zwei Modulen: Selbstbewertung und Selbstaktualisierung. Dieser Rahmen wurde in zahlreichen Studien angewendet.
Wir klassifizieren diese Studien systematisch nach Aufgaben und Arbeitslinien; fassen relevante Evaluationsmethoden und Benchmarks zusammen; und gehen der Frage nach, "Funktioniert Self-Feedback wirklich?" Wir schlagen mehrere kritische Standpunkte vor, darunter die Hypothese der "Sanduhr-Evolution der Internen Konsistenz", die Annahme "Konsistenz ist (fast) Korrektheit" und das "Paradoxon des latenten und expliziten Denkens". Darüber hinaus skizzieren wir vielversprechende Richtungen für zukünftige Forschung. Wir haben den experimentellen Code, die Referenzliste und statistische Daten als Open Source veröffentlicht, verfügbar unter https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.Summary
AI-Generated Summary