ChatPaper.aiChatPaper

Voorbij Correctheid: Het Evalueren van Subjectieve Schrijfvoorkeuren in Verschillende Culturen

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

October 16, 2025
Auteurs: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI

Samenvatting

Huidige methoden voor voorkeursleren behalen hoge nauwkeurigheid op standaard benchmarks, maar vertonen een significante prestatievermindering wanneer objectieve kwaliteitssignalen worden verwijderd. Wij introduceren WritingPreferenceBench, een dataset van 1.800 door mensen geannoteerde voorkeursparen (1.200 Engels, 600 Chinees) over 8 creatieve schrijfgenres, waarbij reacties worden gematcht op objectieve correctheid, feitelijke nauwkeurigheid en lengte. Op deze benchmark behalen sequentiegebaseerde beloningsmodellen—de standaardarchitectuur voor RLHF—slechts een gemiddelde nauwkeurigheid van 52,7%, terwijl zero-shot taalmodelbeoordelaars presteren op 53,9%. Daarentegen behalen generatieve beloningsmodellen die expliciete redeneerketens produceren een nauwkeurigheid van 81,8%. We observeren een hoge variantie binnen modellen over genres: individuele modellen variëren van 18,2% tot 81,8% nauwkeurigheid over verschillende schrijfcategorieën, met standaarddeviaties die gemiddeld 10,1% bedragen. Deze variantie blijft bestaan ongeacht de schaal van het model, waarbij 27B-parametermodellen geen consistente verbetering laten zien ten opzichte van 8B-varianten. Onze resultaten suggereren dat huidige RLHF-methoden voornamelijk leren om objectieve fouten te detecteren in plaats van subjectieve kwaliteitsvoorkeuren te vangen (bijv. creativiteit, stijlvolle flair en emotionele resonantie), en dat succesvol voorkeursmodelleren tussenliggende redeneerrepresentaties vereist in plaats van directe classificatie.
English
Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
PDF102October 17, 2025