ChatPaper.aiChatPaper

Jenseits der Korrektheit: Bewertung subjektiver Schreibpräferenzen über Kulturen hinweg

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

October 16, 2025
papers.authors: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI

papers.abstract

Aktuelle Methoden des Präferenzlernens erreichen hohe Genauigkeit auf Standard-Benchmarks, zeigen jedoch eine signifikante Leistungsverschlechterung, wenn objektive Qualitätssignale entfernt werden. Wir stellen WritingPreferenceBench vor, einen Datensatz mit 1.800 menschlich annotierten Präferenzpaaren (1.200 Englisch, 600 Chinesisch) aus 8 kreativen Schreibgenres, bei denen die Antworten hinsichtlich objektiver Korrektheit, faktischer Genauigkeit und Länge abgeglichen sind. Auf diesem Benchmark erreichen sequenzbasierte Belohnungsmodelle – die Standardarchitektur für RLHF (Reinforcement Learning from Human Feedback) – lediglich eine mittlere Genauigkeit von 52,7 %, während Zero-Shot-Sprachmodellbewerter eine Genauigkeit von 53,9 % erzielen. Im Gegensatz dazu erreichen generative Belohnungsmodelle, die explizite Begründungsketten erzeugen, eine Genauigkeit von 81,8 %. Wir beobachten eine hohe Varianz innerhalb der Modelle über die Genres hinweg: Einzelne Modelle erreichen Genauigkeiten zwischen 18,2 % und 81,8 % in verschiedenen Schreibkategorien, mit durchschnittlichen Standardabweichungen von 10,1 %. Diese Varianz bleibt unabhängig von der Modellgröße bestehen, wobei Modelle mit 27B Parametern keine konsistente Verbesserung gegenüber Varianten mit 8B Parametern zeigen. Unsere Ergebnisse deuten darauf hin, dass aktuelle RLHF-Methoden hauptsächlich lernen, objektive Fehler zu erkennen, anstatt subjektive Qualitätspräferenzen (z. B. Kreativität, stilistische Ausdruckskraft und emotionale Resonanz) zu erfassen, und dass eine erfolgreiche Präferenzmodellierung möglicherweise Zwischenrepräsentationen für die Begründung erfordert, anstatt eine direkte Klassifikation.
English
Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
PDF102October 17, 2025