Gli LLM di oggi sono pronti a spiegare i concetti di benessere?
Are Today's LLMs Ready to Explain Well-Being Concepts?
August 6, 2025
Autori: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI
Abstract
Il benessere comprende dimensioni mentali, fisiche e sociali essenziali per la crescita personale e per prendere decisioni di vita informate. Poiché gli individui consultano sempre più i Modelli Linguistici di Grande Scala (LLM) per comprendere il benessere, emerge una sfida cruciale: gli LLM possono generare spiegazioni che non siano solo accurate, ma anche adattate a pubblici diversi? Spiegazioni di alta qualità richiedono sia correttezza fattuale che la capacità di soddisfare le aspettative di utenti con competenze variabili. In questo lavoro, costruiamo un dataset su larga scala composto da 43.880 spiegazioni di 2.194 concetti di benessere, generate da dieci LLM diversi. Introduciamo un framework di valutazione guidato da principi che utilizza LLM come giudici, impiegando doppi giudici per valutare la qualità delle spiegazioni. Inoltre, dimostriamo che il fine-tuning di un LLM open-source utilizzando il Fine-Tuning Supervisionato (SFT) e l'ottimizzazione diretta delle preferenze (DPO) può migliorare significativamente la qualità delle spiegazioni generate. I nostri risultati rivelano: (1) I giudici LLM proposti si allineano bene con le valutazioni umane; (2) la qualità delle spiegazioni varia significativamente tra modelli, pubblici e categorie; e (3) i modelli finetuned con DPO e SFT superano le loro controparti più grandi, dimostrando l'efficacia dell'apprendimento basato sulle preferenze per compiti specializzati di spiegazione.
English
Well-being encompasses mental, physical, and social dimensions essential to
personal growth and informed life decisions. As individuals increasingly
consult Large Language Models (LLMs) to understand well-being, a key challenge
emerges: Can LLMs generate explanations that are not only accurate but also
tailored to diverse audiences? High-quality explanations require both factual
correctness and the ability to meet the expectations of users with varying
expertise. In this work, we construct a large-scale dataset comprising 43,880
explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We
introduce a principle-guided LLM-as-a-judge evaluation framework, employing
dual judges to assess explanation quality. Furthermore, we show that
fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct
Preference Optimization (DPO) can significantly enhance the quality of
generated explanations. Our results reveal: (1) The proposed LLM judges align
well with human evaluations; (2) explanation quality varies significantly
across models, audiences, and categories; and (3) DPO- and SFT-finetuned models
outperform their larger counterparts, demonstrating the effectiveness of
preference-based learning for specialized explanation tasks.