Les LLM actuels sont-ils prêts à expliquer les concepts de bien-être ?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
papers.authors: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
papers.abstract
Le bien-être englobe des dimensions mentales, physiques et sociales essentielles à la croissance personnelle et à la prise de décisions éclairées dans la vie. Alors que les individus consultent de plus en plus les modèles de langage de grande envergure (LLMs) pour comprendre le bien-être, un défi majeur émerge : ces LLMs peuvent-ils générer des explications qui soient non seulement précises, mais aussi adaptées à des publics divers ? Des explications de haute qualité nécessitent à la fois une exactitude factuelle et la capacité de répondre aux attentes des utilisateurs ayant des niveaux d'expertise variés. Dans ce travail, nous construisons un jeu de données à grande échelle comprenant 43 880 explications de 2 194 concepts liés au bien-être, générées par dix LLMs différents. Nous introduisons un cadre d'évaluation guidé par des principes, utilisant des juges doubles pour évaluer la qualité des explications. De plus, nous montrons que l'affinage d'un LLM open-source par Fine-Tuning Supervisé (SFT) et par Optimisation Directe des Préférences (DPO) peut significativement améliorer la qualité des explications générées. Nos résultats révèlent : (1) Les juges LLM proposés s'alignent bien avec les évaluations humaines ; (2) la qualité des explications varie significativement selon les modèles, les publics et les catégories ; et (3) les modèles affinés par DPO et SFT surpassent leurs homologues plus volumineux, démontrant l'efficacité de l'apprentissage basé sur les préférences pour des tâches d'explication spécialisées.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.