Coherencia interna y autorretroalimentación en modelos de lenguaje grandes: Un estudio
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Autores: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Resumen
Se espera que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) respondan con precisión, pero a menudo muestran razonamientos deficientes o generan contenido alucinatorio. Para abordar esto, se han iniciado estudios con el prefijo "Auto-" como Auto-Coherencia, Auto-Mejora y Auto-Refinamiento. Comparten una característica común: implicar a los LLMs en evaluarse y actualizarse para mitigar los problemas. Sin embargo, estos esfuerzos carecen de una perspectiva unificada sobre la sumarización, ya que las encuestas existentes se centran predominantemente en la categorización sin examinar las motivaciones detrás de estos trabajos.
En este documento, resumimos un marco teórico, denominado Coherencia Interna, que ofrece explicaciones unificadas para fenómenos como la falta de razonamiento y la presencia de alucinaciones. La Coherencia Interna evalúa la coherencia entre las capas latentes, de decodificación y de respuesta de los LLMs basándose en metodologías de muestreo. Ampliando el marco de Coherencia Interna, presentamos un marco teórico simplificado pero efectivo capaz de explorar la Coherencia Interna, denominado Retroalimentación Automática. El marco de Retroalimentación Automática consta de dos módulos: Autoevaluación y Autocorrección. Este marco ha sido utilizado en numerosos estudios.
Clasificamos sistemáticamente estos estudios por tareas y líneas de trabajo; resumimos métodos de evaluación relevantes y puntos de referencia; y profundizamos en la pregunta, "¿Realmente Funciona la Retroalimentación Automática?" Proponemos varios puntos de vista críticos, incluyendo la hipótesis de la "Evolución en Forma de Reloj de Arena de la Coherencia Interna", la hipótesis "La Coherencia es (Casi) la Corrección" y "La Paradoja del Razonamiento Latente y Explícito". Además, esbozamos direcciones prometedoras para futuras investigaciones. Hemos compartido de forma abierta el código experimental, la lista de referencias y los datos estadísticos, disponibles en https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.Summary
AI-Generated Summary