Além da Correção: Avaliando Preferências Subjetivas de Escrita entre Culturas
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
October 16, 2025
Autores: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI
Resumo
Os métodos atuais de aprendizado de preferências alcançam alta precisão em benchmarks padrão, mas exibem uma degradação significativa de desempenho quando sinais objetivos de qualidade são removidos. Apresentamos o WritingPreferenceBench, um conjunto de dados com 1.800 pares de preferências anotados por humanos (1.200 em inglês, 600 em chinês) abrangendo 8 gêneros de escrita criativa, onde as respostas são equilibradas quanto à correção objetiva, precisão factual e extensão. Neste benchmark, modelos de recompensa baseados em sequência—a arquitetura padrão para RLHF (Aprendizado por Reforço com Feedback Humano)—atingem apenas 52,7% de precisão média, enquanto modelos de linguagem de julgamento zero-shot alcançam 53,9%. Em contraste, modelos de recompensa generativos que produzem cadeias de raciocínio explícitas atingem 81,8% de precisão. Observamos alta variância intra-modelo entre gêneros: modelos individuais variam de 18,2% a 81,8% de precisão em diferentes categorias de escrita, com desvios padrão médios de 10,1%. Essa variância persiste independentemente da escala do modelo, com modelos de 27 bilhões de parâmetros não mostrando melhoria consistente em relação a variantes de 8 bilhões. Nossos resultados sugerem que os métodos atuais de RLHF aprendem principalmente a detectar erros objetivos, em vez de capturar preferências subjetivas de qualidade (por exemplo, criatividade, estilo e ressonância emocional), e que a modelagem bem-sucedida de preferências pode exigir representações intermediárias de raciocínio, em vez de classificação direta.
English
Current preference learning methods achieve high accuracy on standard
benchmarks but exhibit significant performance degradation when objective
quality signals are removed. We introduce WritingPreferenceBench, a dataset of
1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8
creative writing genres, where responses are matched for objective correctness,
factual accuracy, and length. On this benchmark, sequence-based reward
models--the standard architecture for RLHF--achieve only 52.7% mean accuracy,
while zero-shot language model judges perform at 53.9%. In contrast, generative
reward models that produce explicit reasoning chains achieve 81.8% accuracy. We
observe high within-model variance across genres: individual models range from
18.2% to 81.8% accuracy across different writing categories, with standard
deviations averaging 10.1%. This variance persists regardless of model scale,
with 27B parameter models showing no consistent improvement over 8B variants.
Our results suggest that current RLHF methods primarily learn to detect
objective errors rather than capture subjective quality preferences (e.g.,
creativity, stylistic flair, and emotional resonance), and that successful
preference modeling may require intermediate reasoning representations rather
than direct classification.