ChatPaper.aiChatPaper

Eine Untersuchung zur Ehrlichkeit großer Sprachmodelle

A Survey on the Honesty of Large Language Models

September 27, 2024
Autoren: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI

Zusammenfassung

Ehrlichkeit ist ein grundlegendes Prinzip zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten, das verlangt, dass diese Modelle erkennen, was sie wissen und nicht wissen, und in der Lage sind, ihr Wissen treu auszudrücken. Trotz vielversprechender Ansätze zeigen aktuelle LLMs immer noch signifikant unehrliches Verhalten, wie zum Beispiel selbstbewusst falsche Antworten zu präsentieren oder nicht in der Lage zu sein, ihr Wissen angemessen auszudrücken. Darüber hinaus sieht sich die Forschung zur Ehrlichkeit von LLMs auch Herausforderungen gegenüber, darunter unterschiedliche Definitionen von Ehrlichkeit, Schwierigkeiten bei der Unterscheidung zwischen bekanntem und unbekanntem Wissen sowie ein Mangel an umfassendem Verständnis der damit verbundenen Forschung. Um diese Probleme anzugehen, bieten wir eine Untersuchung zur Ehrlichkeit von LLMs an, die deren Klärung, Bewertungsansätze und Strategien zur Verbesserung abdeckt. Darüber hinaus bieten wir Einblicke für zukünftige Forschung an, mit dem Ziel, weitere Erkundungen in diesem wichtigen Bereich anzuregen.
English
Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don't know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.

Summary

AI-Generated Summary

PDF333November 16, 2024