Modelos de Linguagem Aprendem a Enganar Humanos via RLHF
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
Autores: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
Resumo
Modelos de linguagem (LMs) podem produzir erros difíceis de detectar para humanos, especialmente quando a tarefa é complexa. O RLHF, o método pós-treinamento mais popular, pode agravar esse problema: para obter recompensas mais altas, os LMs podem se tornar melhores em convencer os humanos de que estão certos, mesmo quando estão errados. Estudamos esse fenômeno sob um pipeline padrão de RLHF, chamando-o de "U-SOFISMA", pois é não intencional pelos desenvolvedores do modelo. Especificamente, pedimos a sujeitos humanos com restrição de tempo (por exemplo, 3-10 minutos) para avaliar a correção das saídas do modelo e calcular a precisão dos humanos em relação às etiquetas de referência. Em uma tarefa de pergunta-resposta (QuALITY) e uma tarefa de programação (APPS), o RLHF torna os LMs melhores em convencer nossos sujeitos, mas não em concluir corretamente a tarefa. O RLHF também torna o modelo mais difícil de ser avaliado: a taxa de falsos positivos de nossos sujeitos aumenta em 24,1% em QuALITY e 18,3% em APPS. Por fim, mostramos que a sondagem, uma abordagem de ponta para detectar Sofismas Intencionais (por exemplo, LMs adulterados), não se generaliza para U-SOFISMA. Nossos resultados destacam um modo de falha importante do RLHF e solicitam mais pesquisas para auxiliar os humanos a alinhá-los.
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.Summary
AI-Generated Summary