Interne Consistentie en Zelf-Feedback in Grote Taalmodellen: Een Overzicht
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Auteurs: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden verwacht nauwkeurig te reageren, maar vertonen vaak gebrekkige redeneringen of genereren hallucinatoire inhoud. Om deze problemen aan te pakken, zijn studies met het voorvoegsel ``Self-'' zoals Self-Consistency, Self-Improve en Self-Refine gestart. Ze delen een gemeenschappelijkheid: het betrekken van LLM's die zichzelf evalueren en bijwerken om de problemen te verminderen. Desalniettemin ontbreekt bij deze inspanningen een uniform perspectief op samenvatting, aangezien bestaande overzichten zich voornamelijk richten op categorisatie zonder de motivaties achter deze werken te onderzoeken.
In dit artikel vatten we een theoretisch kader samen, genaamd Internal Consistency, dat uniforme verklaringen biedt voor fenomenen zoals het gebrek aan redenering en de aanwezigheid van hallucinaties. Internal Consistency beoordeelt de samenhang tussen de latente laag, de decoderingslaag en de responslaag van LLM's op basis van steekproefmethodologieën. Uitbreidend op het Internal Consistency-kader introduceren we een gestroomlijnd maar effectief theoretisch kader dat Internal Consistency kan ontginnen, genaamd Self-Feedback. Het Self-Feedback-kader bestaat uit twee modules: Self-Evaluation en Self-Update. Dit kader is in talrijke studies gebruikt.
We classificeren deze studies systematisch op taken en onderzoekslijnen; vatten relevante evaluatiemethoden en benchmarks samen; en verdiepen ons in de vraag, ``Werkt Self-Feedback Echt?'' We stellen verschillende kritische standpunten voor, waaronder de ``Hourglass Evolution of Internal Consistency'', de hypothese ``Consistency Is (Almost) Correctness'' en ``The Paradox of Latent and Explicit Reasoning''. Bovendien schetsen we veelbelovende richtingen voor toekomstig onderzoek. We hebben de experimentele code, referentielijst en statistische gegevens openbaar gemaakt, beschikbaar op https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.