ChatPaper.aiChatPaper

Os LLMs de hoje estão prontos para explicar conceitos de bem-estar?

Are Today's LLMs Ready to Explain Well-Being Concepts?

August 6, 2025
Autores: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI

Resumo

O bem-estar abrange dimensões mentais, físicas e sociais essenciais para o crescimento pessoal e para a tomada de decisões informadas na vida. À medida que os indivíduos consultam cada vez mais Modelos de Linguagem de Grande Escala (LLMs) para compreender o bem-estar, surge um desafio crucial: os LLMs podem gerar explicações que sejam não apenas precisas, mas também adaptadas a públicos diversos? Explicações de alta qualidade exigem tanto correção factual quanto a capacidade de atender às expectativas de usuários com diferentes níveis de expertise. Neste trabalho, construímos um conjunto de dados em larga escala composto por 43.880 explicações de 2.194 conceitos de bem-estar, geradas por dez LLMs diversos. Introduzimos um framework de avaliação guiado por princípios, utilizando LLMs como juízes, com dois avaliadores para medir a qualidade das explicações. Além disso, demonstramos que o ajuste fino de um LLM de código aberto usando Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferências (DPO) pode melhorar significativamente a qualidade das explicações geradas. Nossos resultados revelam: (1) Os juízes LLMs propostos estão bem alinhados com avaliações humanas; (2) a qualidade das explicações varia significativamente entre modelos, públicos e categorias; e (3) modelos ajustados com DPO e SFT superam seus equivalentes maiores, demonstrando a eficácia do aprendizado baseado em preferências para tarefas especializadas de geração de explicações.
English
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.
PDF265August 8, 2025