ChatPaper.aiChatPaper

正確性を超えて:文化を超えた主観的な文章表現の嗜好を評価する

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

October 16, 2025
著者: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI

要旨

現在の選好学習手法は、標準的なベンチマークでは高い精度を達成しているが、客観的な品質指標が除去されると性能が大幅に低下する。本論文では、WritingPreferenceBenchというデータセットを紹介する。これは8つの創作ジャンルにわたる1,800組の人間による注釈付き選好ペア(英語1,200組、中国語600組)から成り、回答は客観的正確性、事実の正確性、長さが一致するように調整されている。このベンチマークでは、RLHF(強化学習による人間のフィードバック)の標準アーキテクチャであるシーケンスベースの報酬モデルは平均52.7%の精度しか達成できない一方、ゼロショットの言語モデル判定器は53.9%の性能を示す。対照的に、明示的な推論チェーンを生成する生成型報酬モデルは81.8%の精度を達成する。また、ジャンル間でのモデル内分散が高いことが観察された:個々のモデルは異なる執筆カテゴリーで18.2%から81.8%の精度を示し、標準偏差は平均10.1%であった。この分散はモデルの規模に関係なく持続し、27Bパラメータのモデルでも8Bバリアントに比べて一貫した改善は見られなかった。これらの結果は、現在のRLHF手法が主に客観的な誤りを検出することを学習し、主観的な品質選好(例えば、創造性、スタイリッシュな表現、感情的な共鳴)を捉えることには至っていないことを示唆している。また、選好モデリングの成功には、直接的な分類ではなく、中間的な推論表現が必要である可能性が示唆される。
English
Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
PDF102October 17, 2025