¿Están los LLM actuales preparados para explicar conceptos de bienestar?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
Autores: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
Resumen
El bienestar abarca dimensiones mentales, físicas y sociales esenciales para el crecimiento personal y la toma de decisiones informadas en la vida. A medida que las personas consultan cada vez más a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para comprender el bienestar, surge un desafío clave: ¿Pueden los LLMs generar explicaciones que no solo sean precisas, sino también adaptadas a audiencias diversas? Las explicaciones de alta calidad requieren tanto corrección factual como la capacidad de satisfacer las expectativas de usuarios con distintos niveles de experiencia. En este trabajo, construimos un conjunto de datos a gran escala que comprende 43,880 explicaciones de 2,194 conceptos de bienestar, generadas por diez LLMs diversos. Introducimos un marco de evaluación guiado por principios que utiliza LLMs como jueces, empleando jueces duales para evaluar la calidad de las explicaciones. Además, demostramos que el ajuste fino de un LLM de código abierto mediante Ajuste Fino Supervisado (SFT) y Optimización Directa de Preferencias (DPO) puede mejorar significativamente la calidad de las explicaciones generadas. Nuestros resultados revelan: (1) Los jueces LLM propuestos se alinean bien con las evaluaciones humanas; (2) la calidad de las explicaciones varía significativamente entre modelos, audiencias y categorías; y (3) los modelos ajustados con DPO y SFT superan a sus contrapartes más grandes, demostrando la efectividad del aprendizaje basado en preferencias para tareas especializadas de explicación.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.