Zijn de huidige LLM's klaar om welzijnsconcepten uit te leggen?

Samenvatting

Welzijn omvat mentale, fysieke en sociale dimensies die essentieel zijn voor persoonlijke groei en weloverwogen levensbeslissingen. Naarmate individuen steeds vaker Large Language Models (LLMs) raadplegen om welzijn te begrijpen, ontstaat een belangrijke uitdaging: Kunnen LLMs verklaringen genereren die niet alleen accuraat zijn, maar ook afgestemd op diverse doelgroepen? Hoogwaardige verklaringen vereisen zowel feitelijke juistheid als het vermogen om te voldoen aan de verwachtingen van gebruikers met uiteenlopende expertise. In dit werk construeren we een grootschalige dataset bestaande uit 43.880 verklaringen van 2.194 welzijnsconcepten, gegenereerd door tien diverse LLMs. We introduceren een principe-gestuurd LLM-as-a-judge evaluatieraamwerk, waarbij we dubbele beoordelaars inzetten om de kwaliteit van verklaringen te beoordelen. Verder tonen we aan dat het fine-tunen van een open-source LLM met behulp van Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO) de kwaliteit van gegenereerde verklaringen aanzienlijk kan verbeteren. Onze resultaten onthullen: (1) De voorgestelde LLM-beoordelaars sluiten goed aan bij menselijke evaluaties; (2) de kwaliteit van verklaringen varieert aanzienlijk tussen modellen, doelgroepen en categorieën; en (3) DPO- en SFT-gefine-tunede modellen presteren beter dan hun grotere tegenhangers, wat de effectiviteit van voorkeursgebaseerd leren voor gespecialiseerde verklaringstaken aantoont.

English

Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.

Zijn de huidige LLM's klaar om welzijnsconcepten uit te leggen?

Are Today's LLMs Ready to Explain Well-Being Concepts?

Samenvatting

Support