Au-delà de la correction : Évaluer les préférences subjectives en matière d'écriture à travers les cultures
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
October 16, 2025
papers.authors: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI
papers.abstract
Les méthodes actuelles d'apprentissage des préférences atteignent une précision élevée sur les benchmarks standards, mais présentent une dégradation significative des performances lorsque les signaux de qualité objective sont supprimés. Nous introduisons WritingPreferenceBench, un ensemble de données de 1 800 paires de préférences annotées par des humains (1 200 en anglais, 600 en chinois) couvrant 8 genres d'écriture créative, où les réponses sont appariées pour leur exactitude objective, leur précision factuelle et leur longueur. Sur ce benchmark, les modèles de récompense basés sur les séquences—l'architecture standard pour l'apprentissage par renforcement à partir de feedback humain (RLHF)—n'atteignent qu'une précision moyenne de 52,7 %, tandis que les juges de modèles de langage en zero-shot obtiennent 53,9 %. En revanche, les modèles de récompense génératifs qui produisent des chaînes de raisonnement explicites atteignent une précision de 81,8 %. Nous observons une variance élevée au sein des modèles selon les genres : les modèles individuels varient de 18,2 % à 81,8 % de précision selon les catégories d'écriture, avec des écarts-types moyens de 10,1 %. Cette variance persiste indépendamment de l'échelle du modèle, les modèles à 27 milliards de paramètres ne montrant aucune amélioration systématique par rapport aux variantes à 8 milliards. Nos résultats suggèrent que les méthodes actuelles de RLHF apprennent principalement à détecter les erreurs objectives plutôt qu'à capturer les préférences de qualité subjective (par exemple, la créativité, le style ou la résonance émotionnelle), et qu'une modélisation réussie des préférences pourrait nécessiter des représentations de raisonnement intermédiaires plutôt qu'une classification directe.
English
Current preference learning methods achieve high accuracy on standard
benchmarks but exhibit significant performance degradation when objective
quality signals are removed. We introduce WritingPreferenceBench, a dataset of
1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8
creative writing genres, where responses are matched for objective correctness,
factual accuracy, and length. On this benchmark, sequence-based reward
models--the standard architecture for RLHF--achieve only 52.7% mean accuracy,
while zero-shot language model judges perform at 53.9%. In contrast, generative
reward models that produce explicit reasoning chains achieve 81.8% accuracy. We
observe high within-model variance across genres: individual models range from
18.2% to 81.8% accuracy across different writing categories, with standard
deviations averaging 10.1%. This variance persists regardless of model scale,
with 27B parameter models showing no consistent improvement over 8B variants.
Our results suggest that current RLHF methods primarily learn to detect
objective errors rather than capture subjective quality preferences (e.g.,
creativity, stylistic flair, and emotional resonance), and that successful
preference modeling may require intermediate reasoning representations rather
than direct classification.