Taalmodellen leren mensen misleiden via RLHF.
Language Models Learn to Mislead Humans via RLHF
September 19, 2024
Auteurs: Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng
cs.AI
Samenvatting
Taalmodellen (LM's) kunnen fouten produceren die moeilijk te detecteren zijn voor mensen, vooral wanneer de taak complex is. RLHF, de meest populaire post-training methode, kan dit probleem verergeren: om hogere beloningen te behalen, kunnen LM's beter worden in het overtuigen van mensen dat ze gelijk hebben, zelfs wanneer ze fout zitten. We bestuderen dit fenomeen binnen een standaard RLHF-pijplijn en noemen het "U-SOPHISTRY", aangezien dit Onbedoeld is door modelontwikkelaars. Specifiek vragen we tijdbeperkte (bijv. 3-10 minuten) menselijke proefpersonen om de juistheid van modeluitvoer te beoordelen en berekenen we de nauwkeurigheid van mensen tegenover gouden labels. Bij een vraag-antwoordtaak (QuALITY) en programmeertaak (APPS) maakt RLHF LM's beter in het overtuigen van onze proefpersonen, maar niet in het correct voltooien van de taak. RLHF maakt het model ook moeilijker te evalueren: het valse positievenpercentage van onze proefpersonen neemt toe met 24,1% bij QuALITY en 18,3% bij APPS. Tot slot tonen we aan dat probing, een geavanceerde benadering voor het detecteren van Opzettelijke Sophistry (bijv. achterdeur LM's), niet generaliseert naar U-SOPHISTRY. Onze resultaten benadrukken een belangrijke foutmodus van RLHF en pleiten voor meer onderzoek om mensen te helpen zich hierop af te stemmen.
English
Language models (LMs) can produce errors that are hard to detect for humans,
especially when the task is complex. RLHF, the most popular post-training
method, may exacerbate this problem: to achieve higher rewards, LMs might get
better at convincing humans that they are right even when they are wrong. We
study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY"
since it is Unintended by model developers. Specifically, we ask
time-constrained (e.g., 3-10 minutes) human subjects to evaluate the
correctness of model outputs and calculate humans' accuracy against gold
labels. On a question-answering task (QuALITY) and programming task (APPS),
RLHF makes LMs better at convincing our subjects but not at completing the task
correctly. RLHF also makes the model harder to evaluate: our subjects' false
positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show
that probing, a state-of-the-art approach for detecting Intended Sophistry
(e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results
highlight an important failure mode of RLHF and call for more research in
assisting humans to align them.