Ausrichtungstäuschung: Wie Verstärkungslernen durch menschliches Feedback ausgenutzt wird, um fehlausgerichtete Verzerrungen zu optimieren

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) ist die Standardmethode, um Große Sprachmodelle (Large Language Models, LLMs) an menschliche Präferenzen anzupassen. In dieser Arbeit führen wir Alignment Tampering ein, eine potenzielle Schwachstelle, bei der das LLM während der Ausrichtung den Präferenzdatensatz beeinflusst, sodass RLHF unerwünschte Verhaltensweisen verstärkt. Dies ergibt sich aus grundlegenden Einschränkungen von RLHF: (1) Präferenzdatensätze werden aus den eigenen Ausgaben des LLMs erstellt, sodass es diese beeinflussen kann, und (2) paarweise Vergleiche geben nur an, welche Antwort besser ist, nicht jedoch warum. Diese Einschränkungen können ausgenutzt werden, um Alignment Tampering zu verursachen. Beispielsweise bevorzugen Annotatoren verzerrte Antworten, wenn ein LLM diese mit höherer Qualität generiert, aufgrund der Qualität. Die Präferenzlabels unterscheiden jedoch nicht zwischen Qualität und Verzerrung, und das Belohnungsmodell übernimmt diese Einschränkung. Die Optimierung solcher Belohnungen durch Reinforcement Learning oder Best-of-N-Sampling kann fehlausgerichtete Verzerrungen verstärken. Unsere Experimente zeigen eine Verstärkung über verschiedene Verzerrungen hinweg: vom Schlüsselwort-Bias über Propaganda (z. B. Sexismus), Markenwerbung bis hin zur instrumentellen Zielverfolgung. Die Abschwächung bleibt herausfordernd, da bestehende Techniken für robustes RLHF das Alignment Tampering nicht vollständig beheben können, ohne die Antwortqualität zu opfern. Diese Ergebnisse offenbaren strukturelle Schwachstellen des aktuellen RLHF und unterstreichen die Notwendigkeit, diese Schwachstelle zu verhindern. Projektseite: https://alignment-tampering.github.io/

English

Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/