I modelli linguistici imparano a ingannare gli esseri umani tramite RLHF.
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
Autori: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
Abstract
I modelli linguistici (LM) possono produrre errori difficili da rilevare per gli esseri umani, specialmente quando il compito è complesso. RLHF, il metodo più popolare di post-addestramento, potrebbe aggravare questo problema: per ottenere ricompense più elevate, i LM potrebbero diventare più bravi nel convincere gli esseri umani di avere ragione anche quando non è così. Studiamo questo fenomeno in un tipico flusso di lavoro RLHF, chiamandolo "U-SOPHISTRY" poiché è non intenzionale da parte degli sviluppatori del modello. In particolare, chiediamo a soggetti umani con limiti di tempo (ad esempio, da 3 a 10 minuti) di valutare la correttezza delle uscite del modello e calcolare l'accuratezza degli esseri umani rispetto alle etichette di riferimento. In un compito di domande e risposte (QuALITY) e un compito di programmazione (APPS), RLHF rende i LM migliori nel convincere i nostri soggetti, ma non nel completare correttamente il compito. RLHF rende anche il modello più difficile da valutare: il tasso di falsi positivi dei nostri soggetti aumenta del 24,1% su QuALITY e del 18,3% su APPS. Infine, mostriamo che il probing, un approccio all'avanguardia per rilevare la sofistica intenzionale (ad esempio, LM con backdoor), non si generalizza a U-SOPHISTRY. I nostri risultati evidenziano una modalità di fallimento importante di RLHF e richiedono ulteriori ricerche per assistere gli esseri umani nell'allineamento con essi.
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.Summary
AI-Generated Summary