Внутренняя согласованность и самоконтроль в больших языковых моделях: обзор
Internal Consistency and Self-Feedback in Large Language Models: A Survey
July 19, 2024
Авторы: Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li
cs.AI
Аннотация
Большие языковые модели (LLM) должны реагировать точно, но часто демонстрируют недостаточное рассуждение или генерируют галлюцинационный контент. Для решения этих проблем были начаты исследования с приставкой "Self-", такие как Self-Consistency, Self-Improve и Self-Refine. Они имеют общее: включение LLM в оценку и обновление самого себя для устранения проблем. Тем не менее, эти усилия лишены единой перспективы на сжатие, так как существующие обзоры в основном сосредотачиваются на категоризации без изучения мотивов этих работ.
В данной статье мы обобщаем теоретическую концепцию, названную Внутренняя Согласованность, которая предлагает единые объяснения для явлений, таких как недостаток рассуждения и наличие галлюцинаций. Внутренняя Согласованность оценивает согласованность между скрытым слоем LLM, декодирующим слоем и слоем ответа на основе методологий выборки. Расширяя концепцию Внутренней Согласованности, мы представляем упрощенную, но эффективную теоретическую концепцию, способную извлекать Внутреннюю Согласованность, названную Self-Feedback. Концепция Self-Feedback состоит из двух модулей: Self-Evaluation и Self-Update. Эта концепция была использована во многих исследованиях.
Мы систематически классифицируем эти исследования по задачам и направлениям работы; обобщаем соответствующие методы оценки и эталоны; и углубляемся в вопрос "Работает ли Self-Feedback на самом деле?" Мы предлагаем несколько критических точек зрения, включая гипотезу "Часовое Эволюция Внутренней Согласованности", гипотезу "Согласованность - (Почти) Правильность" и "Парадокс Скрытого и Явного Рассуждения". Кроме того, мы намечаем перспективные направления для будущих исследований. Мы предоставили в открытый доступ экспериментальный код, список литературы и статистические данные, доступные по ссылке https://github.com/IAAR-Shanghai/ICSFSurvey.
English
Large language models (LLMs) are expected to respond accurately but often
exhibit deficient reasoning or generate hallucinatory content. To address
these, studies prefixed with ``Self-'' such as Self-Consistency, Self-Improve,
and Self-Refine have been initiated. They share a commonality: involving LLMs
evaluating and updating itself to mitigate the issues. Nonetheless, these
efforts lack a unified perspective on summarization, as existing surveys
predominantly focus on categorization without examining the motivations behind
these works.
In this paper, we summarize a theoretical framework, termed Internal
Consistency, which offers unified explanations for phenomena such as the lack
of reasoning and the presence of hallucinations. Internal Consistency assesses
the coherence among LLMs' latent layer, decoding layer, and response layer
based on sampling methodologies. Expanding upon the Internal Consistency
framework, we introduce a streamlined yet effective theoretical framework
capable of mining Internal Consistency, named Self-Feedback. The Self-Feedback
framework consists of two modules: Self-Evaluation and Self-Update. This
framework has been employed in numerous studies.
We systematically classify these studies by tasks and lines of work;
summarize relevant evaluation methods and benchmarks; and delve into the
concern, ``Does Self-Feedback Really Work?'' We propose several critical
viewpoints, including the ``Hourglass Evolution of Internal Consistency'',
``Consistency Is (Almost) Correctness'' hypothesis, and ``The Paradox of Latent
and Explicit Reasoning''. Furthermore, we outline promising directions for
future research. We have open-sourced the experimental code, reference list,
and statistical data, available at
https://github.com/IAAR-Shanghai/ICSFSurvey.Summary
AI-Generated Summary