Oltre la correttezza: Valutazione delle preferenze soggettive nella scrittura attraverso le culture
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
October 16, 2025
Autori: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI
Abstract
I metodi attuali di apprendimento delle preferenze raggiungono un'elevata accuratezza sui benchmark standard, ma mostrano un significativo degrado delle prestazioni quando vengono rimossi i segnali di qualità oggettiva. Introduciamo WritingPreferenceBench, un dataset di 1.800 coppie di preferenze annotate da esseri umani (1.200 in inglese, 600 in cinese) in 8 generi di scrittura creativa, in cui le risposte sono confrontate per correttezza oggettiva, accuratezza fattuale e lunghezza. Su questo benchmark, i modelli di ricompensa basati su sequenze—l'architettura standard per il RLHF—raggiungono solo una precisione media del 52,7%, mentre i giudici dei modelli linguistici zero-shot ottengono il 53,9%. Al contrario, i modelli di ricompensa generativi che producono catene di ragionamento esplicite raggiungono un'accuratezza dell'81,8%. Osserviamo un'elevata varianza interna ai modelli tra i generi: i singoli modelli variano dal 18,2% all'81,8% di accuratezza tra le diverse categorie di scrittura, con deviazioni standard che in media raggiungono il 10,1%. Questa varianza persiste indipendentemente dalla scala del modello, con modelli da 27B parametri che non mostrano miglioramenti consistenti rispetto alle varianti da 8B. I nostri risultati suggeriscono che i metodi attuali di RLHF apprendono principalmente a rilevare errori oggettivi piuttosto che a catturare preferenze di qualità soggettiva (ad esempio, creatività, stile e risonanza emotiva), e che una modellazione efficace delle preferenze potrebbe richiedere rappresentazioni intermedie di ragionamento piuttosto che una classificazione diretta.
English
Current preference learning methods achieve high accuracy on standard
benchmarks but exhibit significant performance degradation when objective
quality signals are removed. We introduce WritingPreferenceBench, a dataset of
1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8
creative writing genres, where responses are matched for objective correctness,
factual accuracy, and length. On this benchmark, sequence-based reward
models--the standard architecture for RLHF--achieve only 52.7% mean accuracy,
while zero-shot language model judges perform at 53.9%. In contrast, generative
reward models that produce explicit reasoning chains achieve 81.8% accuracy. We
observe high within-model variance across genres: individual models range from
18.2% to 81.8% accuracy across different writing categories, with standard
deviations averaging 10.1%. This variance persists regardless of model scale,
with 27B parameter models showing no consistent improvement over 8B variants.
Our results suggest that current RLHF methods primarily learn to detect
objective errors rather than capture subjective quality preferences (e.g.,
creativity, stylistic flair, and emotional resonance), and that successful
preference modeling may require intermediate reasoning representations rather
than direct classification.