Coerenza Interna e Auto-Feedback nei Modelli Linguistici di Grande Dimensione: Una Rassegna
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Autori: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Abstract
I grandi modelli linguistici (LLM) sono attesi per rispondere in modo accurato, ma spesso mostrano ragionamenti carenti o generano contenuti allucinatori. Per affrontare questi problemi, sono stati avviati studi prefissati con "Self-", come Self-Consistency, Self-Improve e Self-Refine. Questi condividono una caratteristica comune: coinvolgono i LLM nel valutare e aggiornare se stessi per mitigare le problematiche. Tuttavia, questi sforzi mancano di una prospettiva unificata sulla sintesi, poiché le revisioni esistenti si concentrano principalmente sulla categorizzazione senza esaminare le motivazioni alla base di questi lavori.
In questo articolo, sintetizziamo un quadro teorico, denominato Internal Consistency, che offre spiegazioni unificate per fenomeni come la mancanza di ragionamento e la presenza di allucinazioni. L'Internal Consistency valuta la coerenza tra lo strato latente, lo strato di decodifica e lo strato di risposta dei LLM basandosi su metodologie di campionamento. Espandendo il quadro dell'Internal Consistency, introduciamo un quadro teorico semplificato ma efficace, in grado di estrarre l'Internal Consistency, denominato Self-Feedback. Il quadro Self-Feedback è composto da due moduli: Self-Evaluation e Self-Update. Questo quadro è stato impiegato in numerosi studi.
Classifichiamo sistematicamente questi studi per compiti e linee di lavoro; sintetizziamo i metodi di valutazione e i benchmark rilevanti; e approfondiamo la questione, "Il Self-Feedback funziona davvero?" Proponiamo diversi punti di vista critici, tra cui l'"Evoluzione a clessidra dell'Internal Consistency", l'ipotesi "La Coerenza è (quasi) Correttezza" e "Il Paradosso del Ragionamento Latente ed Esplicito". Inoltre, delineiamo promettenti direzioni per la ricerca futura. Abbiamo reso open-source il codice sperimentale, la lista di riferimento e i dati statistici, disponibili su https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.