정확성을 넘어: 문화 간 주관적 글쓰기 선호도 평가
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
October 16, 2025
저자: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI
초록
현재의 선호도 학습 방법들은 표준 벤치마크에서 높은 정확도를 달성하지만, 객관적 품질 신호가 제거되면 성능이 크게 저하되는 것으로 나타났습니다. 본 연구에서는 8가지 창의적 글쓰기 장르에 걸쳐 1,800개의 인간 주석이 달린 선호도 쌍(영어 1,200개, 중국어 600개)으로 구성된 WritingPreferenceBench 데이터셋을 소개합니다. 이 데이터셋에서는 응답들이 객관적 정확성, 사실적 정확성, 그리고 길이에 맞춰 매칭되었습니다. 이 벤치마크에서 RLHF(Reinforcement Learning from Human Feedback)의 표준 아키텍처인 시퀀스 기반 보상 모델은 평균 52.7%의 정확도를 보였으며, 제로샷 언어 모델 판단자는 53.9%의 성능을 나타냈습니다. 반면, 명시적 추론 체인을 생성하는 생성적 보상 모델은 81.8%의 정확도를 달성했습니다. 우리는 장르 간 모델 내에서 높은 분산을 관찰했는데, 개별 모델들은 다양한 글쓰기 카테고리에서 18.2%에서 81.8%까지의 정확도를 보였으며, 표준 편차는 평균 10.1%였습니다. 이 분산은 모델 규모와 관계없이 지속되었으며, 270억 개 파라미터 모델이 80억 개 파라미터 변형보다 일관된 개선을 보이지 않았습니다. 우리의 결과는 현재의 RLHF 방법들이 주로 객관적 오류를 탐지하는 데 초점을 맞추고 있으며, 주관적 품질 선호도(예: 창의성, 스타일리시한 표현, 감정적 공감)를 포착하는 데는 한계가 있음을 시사합니다. 또한, 성공적인 선호도 모델링은 직접적인 분류보다는 중간 추론 표현이 필요할 수 있음을 보여줍니다.
English
Current preference learning methods achieve high accuracy on standard
benchmarks but exhibit significant performance degradation when objective
quality signals are removed. We introduce WritingPreferenceBench, a dataset of
1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8
creative writing genres, where responses are matched for objective correctness,
factual accuracy, and length. On this benchmark, sequence-based reward
models--the standard architecture for RLHF--achieve only 52.7% mean accuracy,
while zero-shot language model judges perform at 53.9%. In contrast, generative
reward models that produce explicit reasoning chains achieve 81.8% accuracy. We
observe high within-model variance across genres: individual models range from
18.2% to 81.8% accuracy across different writing categories, with standard
deviations averaging 10.1%. This variance persists regardless of model scale,
with 27B parameter models showing no consistent improvement over 8B variants.
Our results suggest that current RLHF methods primarily learn to detect
objective errors rather than capture subjective quality preferences (e.g.,
creativity, stylistic flair, and emotional resonance), and that successful
preference modeling may require intermediate reasoning representations rather
than direct classification.