Consistência Interna e Autoavaliação em Modelos de Linguagem Grandes: Uma Pesquisa
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Autores: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Resumo
Os modelos de linguagem grandes (LLMs) são esperados para responder com precisão, mas frequentemente apresentam raciocínio deficiente ou geram conteúdo alucinatório. Para lidar com isso, estudos prefixados com "Self-" como Auto-Consistência, Auto-Melhoria e Auto-Aprimoramento foram iniciados. Eles compartilham uma característica comum: envolver LLMs avaliando e atualizando a si mesmos para mitigar os problemas. No entanto, esses esforços carecem de uma perspectiva unificada sobre sumarização, já que as pesquisas existentes predominantemente se concentram na categorização sem examinar as motivações por trás desses trabalhos.
Neste artigo, resumimos um arcabouço teórico, denominado Consistência Interna, que oferece explicações unificadas para fenômenos como a falta de raciocínio e a presença de alucinações. A Consistência Interna avalia a coerência entre as camadas latentes, de decodificação e de resposta dos LLMs com base em metodologias de amostragem. Expandindo o arcabouço de Consistência Interna, introduzimos um arcabouço teórico simplificado, porém eficaz, capaz de explorar a Consistência Interna, chamado Auto-Retroalimentação. O arcabouço de Auto-Retroalimentação consiste em dois módulos: Autoavaliação e Autopdate. Este arcabouço tem sido empregado em inúmeros estudos.
Classificamos sistematicamente esses estudos por tarefas e linhas de trabalho; resumimos métodos de avaliação relevantes e benchmarks; e aprofundamos na preocupação, "Será que a Auto-Retroalimentação Realmente Funciona?" Propomos várias perspectivas críticas, incluindo a hipótese "Evolução em Ampulheta da Consistência Interna", a hipótese "Consistência é (Quase) Correção" e "O Paradoxo do Raciocínio Latente e Explícito". Além disso, delineamos direções promissoras para pesquisas futuras. Disponibilizamos o código experimental, lista de referências e dados estatísticos em código aberto, disponíveis em https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.