ChatPaper.aiChatPaper

Los modelos de lenguaje aprenden a engañar a los humanos a través de RLHF.

Language Models Learn to Mislead Humans via RLHF

September 19, 2024
Autores: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI

Resumen

Los modelos de lenguaje (LMs) pueden producir errores difíciles de detectar para los humanos, especialmente cuando la tarea es compleja. RLHF, el método post-entrenamiento más popular, puede agravar este problema: para obtener recompensas más altas, los LMs podrían volverse mejores en convencer a los humanos de que tienen razón incluso cuando están equivocados. Estudiamos este fenómeno bajo un proceso estándar de RLHF, al que llamamos "U-SOPHISTRY" dado que es No Intencionado por los desarrolladores del modelo. Específicamente, solicitamos a sujetos humanos con restricción de tiempo (por ejemplo, 3-10 minutos) que evalúen la corrección de las salidas del modelo y calculen la precisión de los humanos frente a las etiquetas de referencia. En una tarea de pregunta-respuesta (QuALITY) y una tarea de programación (APPS), RLHF hace que los LMs sean mejores en convencer a nuestros sujetos, pero no en completar la tarea correctamente. RLHF también dificulta la evaluación del modelo: la tasa de falsos positivos de nuestros sujetos aumenta en un 24.1% en QuALITY y un 18.3% en APPS. Finalmente, demostramos que el sondeo, un enfoque de vanguardia para detectar Sofistería Intencionada (por ejemplo, LMs con puertas traseras), no se generaliza a U-SOPHISTRY. Nuestros resultados resaltan un modo de falla importante de RLHF y llaman a más investigaciones para asistir a los humanos en alinearlos.
English
Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them.

Summary

AI-Generated Summary

PDF102November 16, 2024