ChatPaper.aiChatPaper

Een Onderzoek naar de Betrouwbaarheid van Grote Taalmodellen

A Survey on the Honesty of Large Language Models

September 27, 2024
Auteurs: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI

Samenvatting

Eerlijkheid is een fundamenteel principe voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden, waarbij deze modellen moeten erkennen wat ze wel en niet weten en in staat moeten zijn om hun kennis op een trouwe manier uit te drukken. Ondanks veelbelovende ontwikkelingen vertonen huidige LLM's nog steeds aanzienlijke oneerlijke gedragingen, zoals zelfverzekerd verkeerde antwoorden presenteren of niet in staat zijn om uit te drukken wat ze weten. Bovendien staat onderzoek naar de eerlijkheid van LLM's ook voor uitdagingen, waaronder variërende definities van eerlijkheid, moeilijkheden bij het onderscheiden tussen bekende en onbekende kennis, en een gebrek aan alomvattend begrip van gerelateerd onderzoek. Om deze kwesties aan te pakken, bieden we een overzicht van de eerlijkheid van LLM's, waarbij we de verduidelijking ervan, evaluatiebenaderingen en strategieën voor verbetering behandelen. Bovendien bieden we inzichten voor toekomstig onderzoek, met als doel verdere verkenning op dit belangrijke gebied te inspireren.
English
Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don't know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.

Summary

AI-Generated Summary

PDF333November 16, 2024