Una encuesta sobre la honestidad de los modelos de lenguaje grandes

Resumen

La honestidad es un principio fundamental para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos, lo que requiere que estos modelos reconozcan lo que saben y lo que no saben, y sean capaces de expresar fielmente su conocimiento. A pesar de ser prometedores, los LLMs actuales aún muestran comportamientos significativamente deshonestos, como presentar respuestas incorrectas con confianza o no ser capaces de expresar lo que saben. Además, la investigación sobre la honestidad de los LLMs también enfrenta desafíos, que incluyen definiciones variables de honestidad, dificultades para distinguir entre conocimiento conocido y desconocido, y una falta de comprensión integral de la investigación relacionada. Para abordar estos problemas, proporcionamos un estudio sobre la honestidad de los LLMs, abarcando su clarificación, enfoques de evaluación y estrategias para mejorar. Además, ofrecemos ideas para futuras investigaciones, con el objetivo de inspirar una mayor exploración en esta área importante.

English

Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don't know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.

Una encuesta sobre la honestidad de los modelos de lenguaje grandes

A Survey on the Honesty of Large Language Models

Resumen

Support