Sind die heutigen LLMs bereit, Wohlfahrtskonzepte zu erklären?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
papers.authors: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
papers.abstract
Wohlbefinden umfasst mentale, physische und soziale Dimensionen, die für persönliches Wachstum und fundierte Lebensentscheidungen essenziell sind. Da Individuen zunehmend Large Language Models (LLMs) konsultieren, um Wohlbefinden zu verstehen, ergibt sich eine zentrale Herausforderung: Können LLMs Erklärungen generieren, die nicht nur präzise, sondern auch auf diverse Zielgruppen zugeschnitten sind? Hochwertige Erklärungen erfordern sowohl faktische Korrektheit als auch die Fähigkeit, die Erwartungen von Nutzern mit unterschiedlichem Fachwissen zu erfüllen. In dieser Arbeit erstellen wir einen umfangreichen Datensatz, der 43.880 Erklärungen zu 2.194 Wohlbefindenskonzepten umfasst, die von zehn verschiedenen LLMs generiert wurden. Wir führen ein prinzipiengeleitetes LLM-as-a-Judge-Bewertungsframework ein, das duale Bewerter einsetzt, um die Qualität der Erklärungen zu beurteilen. Darüber hinaus zeigen wir, dass das Feinabstimmen eines Open-Source-LLMs mittels Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) die Qualität der generierten Erklärungen signifikant verbessern kann. Unsere Ergebnisse zeigen: (1) Die vorgeschlagenen LLM-Bewerter stimmen gut mit menschlichen Bewertungen überein; (2) die Erklärungsqualität variiert erheblich zwischen Modellen, Zielgruppen und Kategorien; und (3) mit DPO und SFT feinabgestimmte Modelle übertreffen ihre größeren Gegenstücke, was die Effektivität des präferenzbasierten Lernens für spezialisierte Erklärungsaufgaben demonstriert.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.