ChatPaper.aiChatPaper

Gli LLM di oggi sono pronti a spiegare i concetti di benessere?

Are Today's LLMs Ready to Explain Well-Being Concepts?

August 6, 2025
Autori: Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu
cs.AI

Abstract

Il benessere comprende dimensioni mentali, fisiche e sociali essenziali per la crescita personale e per prendere decisioni di vita informate. Poiché gli individui consultano sempre più i Modelli Linguistici di Grande Scala (LLM) per comprendere il benessere, emerge una sfida cruciale: gli LLM possono generare spiegazioni che non siano solo accurate, ma anche adattate a pubblici diversi? Spiegazioni di alta qualità richiedono sia correttezza fattuale che la capacità di soddisfare le aspettative di utenti con competenze variabili. In questo lavoro, costruiamo un dataset su larga scala composto da 43.880 spiegazioni di 2.194 concetti di benessere, generate da dieci LLM diversi. Introduciamo un framework di valutazione guidato da principi che utilizza LLM come giudici, impiegando doppi giudici per valutare la qualità delle spiegazioni. Inoltre, dimostriamo che il fine-tuning di un LLM open-source utilizzando il Fine-Tuning Supervisionato (SFT) e l'ottimizzazione diretta delle preferenze (DPO) può migliorare significativamente la qualità delle spiegazioni generate. I nostri risultati rivelano: (1) I giudici LLM proposti si allineano bene con le valutazioni umane; (2) la qualità delle spiegazioni varia significativamente tra modelli, pubblici e categorie; e (3) i modelli finetuned con DPO e SFT superano le loro controparti più grandi, dimostrando l'efficacia dell'apprendimento basato sulle preferenze per compiti specializzati di spiegazione.
English
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a large-scale dataset comprising 43,880 explanations of 2,194 well-being concepts, generated by ten diverse LLMs. We introduce a principle-guided LLM-as-a-judge evaluation framework, employing dual judges to assess explanation quality. Furthermore, we show that fine-tuning an open-source LLM using Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) can significantly enhance the quality of generated explanations. Our results reveal: (1) The proposed LLM judges align well with human evaluations; (2) explanation quality varies significantly across models, audiences, and categories; and (3) DPO- and SFT-finetuned models outperform their larger counterparts, demonstrating the effectiveness of preference-based learning for specialized explanation tasks.
PDF265August 8, 2025