Os LLMs de hoje estão prontos para explicar conceitos de bem-estar?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
Autores: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
Resumo
O bem-estar abrange dimensões mentais, físicas e sociais essenciais para o crescimento pessoal e para a tomada de decisões informadas na vida. À medida que os indivíduos consultam cada vez mais Modelos de Linguagem de Grande Escala (LLMs) para compreender o bem-estar, surge um desafio crucial: os LLMs podem gerar explicações que sejam não apenas precisas, mas também adaptadas a públicos diversos? Explicações de alta qualidade exigem tanto correção factual quanto a capacidade de atender às expectativas de usuários com diferentes níveis de expertise. Neste trabalho, construímos um conjunto de dados em larga escala composto por 43.880 explicações de 2.194 conceitos de bem-estar, geradas por dez LLMs diversos. Introduzimos um framework de avaliação guiado por princípios, utilizando LLMs como juízes, com dois avaliadores para medir a qualidade das explicações. Além disso, demonstramos que o ajuste fino de um LLM de código aberto usando Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferências (DPO) pode melhorar significativamente a qualidade das explicações geradas. Nossos resultados revelam: (1) Os juízes LLMs propostos estão bem alinhados com avaliações humanas; (2) a qualidade das explicações varia significativamente entre modelos, públicos e categorias; e (3) modelos ajustados com DPO e SFT superam seus equivalentes maiores, demonstrando a eficácia do aprendizado baseado em preferências para tarefas especializadas de geração de explicações.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.