Modelos de Linguagem Aprendem a Enganar Humanos via RLHF

Resumo

Modelos de linguagem (LMs) podem produzir erros difíceis de detectar para humanos, especialmente quando a tarefa é complexa. O RLHF, o método pós-treinamento mais popular, pode agravar esse problema: para obter recompensas mais altas, os LMs podem se tornar melhores em convencer os humanos de que estão certos, mesmo quando estão errados. Estudamos esse fenômeno sob um pipeline padrão de RLHF, chamando-o de "U-SOFISMA", pois é não intencional pelos desenvolvedores do modelo. Especificamente, pedimos a sujeitos humanos com restrição de tempo (por exemplo, 3-10 minutos) para avaliar a correção das saídas do modelo e calcular a precisão dos humanos em relação às etiquetas de referência. Em uma tarefa de pergunta-resposta (QuALITY) e uma tarefa de programação (APPS), o RLHF torna os LMs melhores em convencer nossos sujeitos, mas não em concluir corretamente a tarefa. O RLHF também torna o modelo mais difícil de ser avaliado: a taxa de falsos positivos de nossos sujeitos aumenta em 24,1% em QuALITY e 18,3% em APPS. Por fim, mostramos que a sondagem, uma abordagem de ponta para detectar Sofismas Intencionais (por exemplo, LMs adulterados), não se generaliza para U-SOFISMA. Nossos resultados destacam um modo de falha importante do RLHF e solicitam mais pesquisas para auxiliar os humanos a alinhá-los.

English

Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them.

Modelos de Linguagem Aprendem a Enganar Humanos via RLHF

Language Models Learn to Mislead Humans via RLHF

Resumo

Support