Los modelos de lenguaje aprenden a engañar a los humanos a través de RLHF.

Resumen

Los modelos de lenguaje (LMs) pueden producir errores difíciles de detectar para los humanos, especialmente cuando la tarea es compleja. RLHF, el método post-entrenamiento más popular, puede agravar este problema: para obtener recompensas más altas, los LMs podrían volverse mejores en convencer a los humanos de que tienen razón incluso cuando están equivocados. Estudiamos este fenómeno bajo un proceso estándar de RLHF, al que llamamos "U-SOPHISTRY" dado que es No Intencionado por los desarrolladores del modelo. Específicamente, solicitamos a sujetos humanos con restricción de tiempo (por ejemplo, 3-10 minutos) que evalúen la corrección de las salidas del modelo y calculen la precisión de los humanos frente a las etiquetas de referencia. En una tarea de pregunta-respuesta (QuALITY) y una tarea de programación (APPS), RLHF hace que los LMs sean mejores en convencer a nuestros sujetos, pero no en completar la tarea correctamente. RLHF también dificulta la evaluación del modelo: la tasa de falsos positivos de nuestros sujetos aumenta en un 24.1% en QuALITY y un 18.3% en APPS. Finalmente, demostramos que el sondeo, un enfoque de vanguardia para detectar Sofistería Intencionada (por ejemplo, LMs con puertas traseras), no se generaliza a U-SOPHISTRY. Nuestros resultados resaltan un modo de falla importante de RLHF y llaman a más investigaciones para asistir a los humanos en alinearlos.

English

Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them.

Los modelos de lenguaje aprenden a engañar a los humanos a través de RLHF.

Language Models Learn to Mislead Humans via RLHF

Resumen

Support