Los modelos de lenguaje aprenden a engañar a los humanos a través de RLHF.
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
Autores: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
Resumen
Los modelos de lenguaje (LMs) pueden producir errores difíciles de detectar para los humanos, especialmente cuando la tarea es compleja. RLHF, el método post-entrenamiento más popular, puede agravar este problema: para obtener recompensas más altas, los LMs podrían volverse mejores en convencer a los humanos de que tienen razón incluso cuando están equivocados. Estudiamos este fenómeno bajo un proceso estándar de RLHF, al que llamamos "U-SOPHISTRY" dado que es No Intencionado por los desarrolladores del modelo. Específicamente, solicitamos a sujetos humanos con restricción de tiempo (por ejemplo, 3-10 minutos) que evalúen la corrección de las salidas del modelo y calculen la precisión de los humanos frente a las etiquetas de referencia. En una tarea de pregunta-respuesta (QuALITY) y una tarea de programación (APPS), RLHF hace que los LMs sean mejores en convencer a nuestros sujetos, pero no en completar la tarea correctamente. RLHF también dificulta la evaluación del modelo: la tasa de falsos positivos de nuestros sujetos aumenta en un 24.1% en QuALITY y un 18.3% en APPS. Finalmente, demostramos que el sondeo, un enfoque de vanguardia para detectar Sofistería Intencionada (por ejemplo, LMs con puertas traseras), no se generaliza a U-SOPHISTRY. Nuestros resultados resaltan un modo de falla importante de RLHF y llaman a más investigaciones para asistir a los humanos en alinearlos.
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.Summary
AI-Generated Summary