Sind die heutigen LLMs bereit, Wohlfahrtskonzepte zu erklären?

papers.abstract

Wohlbefinden umfasst mentale, physische und soziale Dimensionen, die für persönliches Wachstum und fundierte Lebensentscheidungen essenziell sind. Da Individuen zunehmend Large Language Models (LLMs) konsultieren, um Wohlbefinden zu verstehen, ergibt sich eine zentrale Herausforderung: Können LLMs Erklärungen generieren, die nicht nur präzise, sondern auch auf diverse Zielgruppen zugeschnitten sind? Hochwertige Erklärungen erfordern sowohl faktische Korrektheit als auch die Fähigkeit, die Erwartungen von Nutzern mit unterschiedlichem Fachwissen zu erfüllen. In dieser Arbeit erstellen wir einen umfangreichen Datensatz, der 43.880 Erklärungen zu 2.194 Wohlbefindenskonzepten umfasst, die von zehn verschiedenen LLMs generiert wurden. Wir führen ein prinzipiengeleitetes LLM-as-a-Judge-Bewertungsframework ein, das duale Bewerter einsetzt, um die Qualität der Erklärungen zu beurteilen. Darüber hinaus zeigen wir, dass das Feinabstimmen eines Open-Source-LLMs mittels Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) die Qualität der generierten Erklärungen signifikant verbessern kann. Unsere Ergebnisse zeigen: (1) Die vorgeschlagenen LLM-Bewerter stimmen gut mit menschlichen Bewertungen überein; (2) die Erklärungsqualität variiert erheblich zwischen Modellen, Zielgruppen und Kategorien; und (3) mit DPO und SFT feinabgestimmte Modelle übertreffen ihre größeren Gegenstücke, was die Effektivität des präferenzbasierten Lernens für spezialisierte Erklärungsaufgaben demonstriert.

English

Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.

Sind die heutigen LLMs bereit, Wohlfahrtskonzepte zu erklären?

Are Today's LLMs Ready to Explain Well-Being Concepts?

papers.abstract

Support