Afstemmingsmanipulatie: Hoe versterkend leren van menselijke feedback wordt misbruikt om verkeerd afgestemde vooroordelen te optimaliseren

Samenvatting

Reinforcement Learning from Human Feedback (RLHF) is de standaardmethode om Grote Taalmodellen (GTM) af te stemmen op menselijke voorkeuren. In dit werk introduceren we afstemmingsmanipulatie, een potentiële kwetsbaarheid waarbij het GTM dat wordt afgestemd, de voorkeursdataset beïnvloedt, waardoor RLHF ongewenst gedrag versterkt. Dit vloeit voort uit kernbeperkingen van RLHF: (1) voorkeursdatasets worden geconstrueerd uit de eigen outputs van het GTM, waardoor het deze kan beïnvloeden, en (2) paarsgewijze vergelijkingen geven alleen aan welk antwoord beter is, niet waarom. Deze beperkingen kunnen worden uitgebuit om afstemmingsmanipulatie te veroorzaken. Als een GTM bijvoorbeeld bevooroordeelde antwoorden van hogere kwaliteit genereert, zullen annotatoren op basis van kwaliteit de voorkeur geven aan deze antwoorden. Voorkeurslabels maken echter geen onderscheid tussen kwaliteit en vooroordeel, en het beloningsmodel erft deze beperking. Het optimaliseren van dergelijke beloningen via reinforcement learning of best-of-N sampling kan verkeerd afgestemde vooroordelen versterken. Onze experimenten tonen versterking aan bij uiteenlopende vooroordelen: van trefwoordvooroordeel tot propaganda (bijv. seksisme), merkpromotie en instrumenteel doelzoekend gedrag. Mitigatie blijft uitdagend, omdat bestaande technieken voor robuust RLHF er niet in slagen afstemmingsmanipulatie volledig op te lossen zonder in te boeten aan antwoordkwaliteit. Deze bevindingen onthullen structurele kwetsbaarheden van huidige RLHF en benadrukken de noodzaak om deze kwetsbaarheid te voorkomen. Projectpagina: https://alignment-tampering.github.io/

English

Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/