Обзор честности крупных языковых моделей
A Survey on the Honesty of Large Language Models
September 27, 2024
Авторы: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI
Аннотация
Честность является фундаментальным принципом для выравнивания больших языковых моделей (LLM) с человеческими ценностями, требуя от этих моделей распознавать то, что они знают и что не знают, и быть способными верно выражать свои знания. Несмотря на многообещающие результаты, текущие LLM по-прежнему проявляют значительные нечестные поведенческие модели, такие как уверенное представление неверных ответов или неспособность выразить то, что они знают. Кроме того, исследования по честности LLM также сталкиваются с проблемами, включая различные определения честности, трудности в разграничении между известными и неизвестными знаниями, а также недостаток всеобъемлющего понимания связанных исследований. Для решения этих проблем мы предоставляем обзор по честности LLM, охватывающий его уточнение, подходы к оценке и стратегии улучшения. Более того, мы предлагаем идеи для будущих исследований, нацеленные на вдохновение дальнейшего исследования в этой важной области.
English
Honesty is a fundamental principle for aligning large language models (LLMs)
with human values, requiring these models to recognize what they know and don't
know and be able to faithfully express their knowledge. Despite promising,
current LLMs still exhibit significant dishonest behaviors, such as confidently
presenting wrong answers or failing to express what they know. In addition,
research on the honesty of LLMs also faces challenges, including varying
definitions of honesty, difficulties in distinguishing between known and
unknown knowledge, and a lack of comprehensive understanding of related
research. To address these issues, we provide a survey on the honesty of LLMs,
covering its clarification, evaluation approaches, and strategies for
improvement. Moreover, we offer insights for future research, aiming to inspire
further exploration in this important area.Summary
AI-Generated Summary