Uma Pesquisa sobre a Honestidade de Modelos de Linguagem Grandes
A Survey on the Honesty of Large Language Models
September 27, 2024
Autores: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI
Resumo
A honestidade é um princípio fundamental para alinhar os grandes modelos de linguagem (LLMs) com os valores humanos, exigindo que esses modelos reconheçam o que sabem e o que não sabem e sejam capazes de expressar fielmente seu conhecimento. Apesar de promissores, os LLMs atuais ainda apresentam comportamentos significativamente desonestos, como apresentar respostas erradas com confiança ou falhar em expressar o que sabem. Além disso, a pesquisa sobre a honestidade dos LLMs também enfrenta desafios, incluindo definições variadas de honestidade, dificuldades em distinguir entre conhecimento conhecido e desconhecido, e uma falta de compreensão abrangente da pesquisa relacionada. Para lidar com essas questões, fornecemos uma pesquisa sobre a honestidade dos LLMs, abrangendo sua clarificação, abordagens de avaliação e estratégias para melhoria. Além disso, oferecemos insights para pesquisas futuras, com o objetivo de inspirar uma exploração mais aprofundada nessa área importante.
English
Honesty is a fundamental principle for aligning large language models (LLMs)
with human values, requiring these models to recognize what they know and don't
know and be able to faithfully express their knowledge. Despite promising,
current LLMs still exhibit significant dishonest behaviors, such as confidently
presenting wrong answers or failing to express what they know. In addition,
research on the honesty of LLMs also faces challenges, including varying
definitions of honesty, difficulties in distinguishing between known and
unknown knowledge, and a lack of comprehensive understanding of related
research. To address these issues, we provide a survey on the honesty of LLMs,
covering its clarification, evaluation approaches, and strategies for
improvement. Moreover, we offer insights for future research, aiming to inspire
further exploration in this important area.Summary
AI-Generated Summary