Una encuesta sobre la honestidad de los modelos de lenguaje grandes
A Survey on the Honesty of Large Language Models
September 27, 2024
Autores: Siheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam
cs.AI
Resumen
La honestidad es un principio fundamental para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos, lo que requiere que estos modelos reconozcan lo que saben y lo que no saben, y sean capaces de expresar fielmente su conocimiento. A pesar de ser prometedores, los LLMs actuales aún muestran comportamientos significativamente deshonestos, como presentar respuestas incorrectas con confianza o no ser capaces de expresar lo que saben. Además, la investigación sobre la honestidad de los LLMs también enfrenta desafíos, que incluyen definiciones variables de honestidad, dificultades para distinguir entre conocimiento conocido y desconocido, y una falta de comprensión integral de la investigación relacionada. Para abordar estos problemas, proporcionamos un estudio sobre la honestidad de los LLMs, abarcando su clarificación, enfoques de evaluación y estrategias para mejorar. Además, ofrecemos ideas para futuras investigaciones, con el objetivo de inspirar una mayor exploración en esta área importante.
English
Honesty is a fundamental principle for aligning large language models (LLMs)
with human values, requiring these models to recognize what they know and don't
know and be able to faithfully express their knowledge. Despite promising,
current LLMs still exhibit significant dishonest behaviors, such as confidently
presenting wrong answers or failing to express what they know. In addition,
research on the honesty of LLMs also faces challenges, including varying
definitions of honesty, difficulties in distinguishing between known and
unknown knowledge, and a lack of comprehensive understanding of related
research. To address these issues, we provide a survey on the honesty of LLMs,
covering its clarification, evaluation approaches, and strategies for
improvement. Moreover, we offer insights for future research, aiming to inspire
further exploration in this important area.Summary
AI-Generated Summary