ChatPaper.aiChatPaper

Les LLM actuels sont-ils prêts à expliquer les concepts de bien-être ?

Are Today's LLMs Ready to Explain Well-Being Concepts?

August 6, 2025
papers.authors: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI

papers.abstract

Le bien-être englobe des dimensions mentales, physiques et sociales essentielles à la croissance personnelle et à la prise de décisions éclairées dans la vie. Alors que les individus consultent de plus en plus les modèles de langage de grande envergure (LLMs) pour comprendre le bien-être, un défi majeur émerge : ces LLMs peuvent-ils générer des explications qui soient non seulement précises, mais aussi adaptées à des publics divers ? Des explications de haute qualité nécessitent à la fois une exactitude factuelle et la capacité de répondre aux attentes des utilisateurs ayant des niveaux d'expertise variés. Dans ce travail, nous construisons un jeu de données à grande échelle comprenant 43 880 explications de 2 194 concepts liés au bien-être, générées par dix LLMs différents. Nous introduisons un cadre d'évaluation guidé par des principes, utilisant des juges doubles pour évaluer la qualité des explications. De plus, nous montrons que l'affinage d'un LLM open-source par Fine-Tuning Supervisé (SFT) et par Optimisation Directe des Préférences (DPO) peut significativement améliorer la qualité des explications générées. Nos résultats révèlent : (1) Les juges LLM proposés s'alignent bien avec les évaluations humaines ; (2) la qualité des explications varie significativement selon les modèles, les publics et les catégories ; et (3) les modèles affinés par DPO et SFT surpassent leurs homologues plus volumineux, démontrant l'efficacité de l'apprentissage basé sur les préférences pour des tâches d'explication spécialisées.
English
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.
PDF235August 8, 2025