ChatPaper.aiChatPaper

За пределами правильности: оценка субъективных предпочтений в письменной речи в разных культурах

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

October 16, 2025
Авторы: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI

Аннотация

Современные методы обучения предпочтениям демонстрируют высокую точность на стандартных тестах, но их производительность значительно снижается при удалении объективных показателей качества. Мы представляем WritingPreferenceBench — набор данных из 1800 пар предпочтений, аннотированных людьми (1200 на английском, 600 на китайском), охватывающих 8 жанров творческого письма, где ответы сопоставлены по объективной корректности, фактической точности и длине. На этом тесте модели вознаграждения на основе последовательностей — стандартная архитектура для RLHF — достигают средней точности всего 52,7%, в то время как языковые модели с нулевым обучением показывают результат 53,9%. В отличие от них, генеративные модели вознаграждения, которые создают явные цепочки рассуждений, достигают точности 81,8%. Мы наблюдаем высокую вариативность внутри моделей между жанрами: отдельные модели демонстрируют точность от 18,2% до 81,8% в разных категориях письма, со средним стандартным отклонением 10,1%. Эта вариативность сохраняется независимо от масштаба модели, при этом модели с 27 миллиардами параметров не показывают устойчивого улучшения по сравнению с вариантами на 8 миллиардов. Наши результаты позволяют предположить, что современные методы RLHF в основном учатся обнаруживать объективные ошибки, а не улавливать субъективные предпочтения качества (например, креативность, стилистическое своеобразие и эмоциональный отклик), и что успешное моделирование предпочтений может требовать промежуточных представлений рассуждений, а не прямой классификации.
English
Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
PDF102October 17, 2025