ChatPaper.aiChatPaper

Más allá de la corrección: Evaluación de las preferencias subjetivas en la escritura a través de las culturas.

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

October 16, 2025
Autores: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin
cs.AI

Resumen

Los métodos actuales de aprendizaje de preferencias logran una alta precisión en puntos de referencia estándar, pero muestran una degradación significativa del rendimiento cuando se eliminan las señales de calidad objetiva. Presentamos WritingPreferenceBench, un conjunto de datos de 1,800 pares de preferencias anotados por humanos (1,200 en inglés, 600 en chino) en 8 géneros de escritura creativa, donde las respuestas se comparan en términos de corrección objetiva, precisión factual y longitud. En este punto de referencia, los modelos de recompensa basados en secuencias—la arquitectura estándar para RLHF—alcanzan solo un 52.7% de precisión media, mientras que los modelos de lenguaje de evaluación en modo *zero-shot* obtienen un 53.9%. En contraste, los modelos de recompensa generativos que producen cadenas de razonamiento explícitas logran un 81.8% de precisión. Observamos una alta varianza dentro del modelo entre géneros: los modelos individuales varían entre un 18.2% y un 81.8% de precisión en diferentes categorías de escritura, con desviaciones estándar que promedian un 10.1%. Esta varianza persiste independientemente de la escala del modelo, ya que los modelos con 27B parámetros no muestran una mejora consistente sobre las variantes de 8B. Nuestros resultados sugieren que los métodos actuales de RLHF aprenden principalmente a detectar errores objetivos en lugar de capturar preferencias de calidad subjetiva (por ejemplo, creatividad, estilo distintivo y resonancia emocional), y que el modelado exitoso de preferencias puede requerir representaciones intermedias de razonamiento en lugar de clasificación directa.
English
Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
PDF102October 17, 2025