Zijn de huidige LLM's klaar om welzijnsconcepten uit te leggen?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
Auteurs: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
Samenvatting
Welzijn omvat mentale, fysieke en sociale dimensies die essentieel zijn voor persoonlijke groei en weloverwogen levensbeslissingen. Naarmate individuen steeds vaker Large Language Models (LLMs) raadplegen om welzijn te begrijpen, ontstaat een belangrijke uitdaging: Kunnen LLMs verklaringen genereren die niet alleen accuraat zijn, maar ook afgestemd op diverse doelgroepen? Hoogwaardige verklaringen vereisen zowel feitelijke juistheid als het vermogen om te voldoen aan de verwachtingen van gebruikers met uiteenlopende expertise. In dit werk construeren we een grootschalige dataset bestaande uit 43.880 verklaringen van 2.194 welzijnsconcepten, gegenereerd door tien diverse LLMs. We introduceren een principe-gestuurd LLM-as-a-judge evaluatieraamwerk, waarbij we dubbele beoordelaars inzetten om de kwaliteit van verklaringen te beoordelen. Verder tonen we aan dat het fine-tunen van een open-source LLM met behulp van Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO) de kwaliteit van gegenereerde verklaringen aanzienlijk kan verbeteren. Onze resultaten onthullen: (1) De voorgestelde LLM-beoordelaars sluiten goed aan bij menselijke evaluaties; (2) de kwaliteit van verklaringen varieert aanzienlijk tussen modellen, doelgroepen en categorieën; en (3) DPO- en SFT-gefine-tunede modellen presteren beter dan hun grotere tegenhangers, wat de effectiviteit van voorkeursgebaseerd leren voor gespecialiseerde verklaringstaken aantoont.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.