Нарушение согласования: как обучение с подкреплением на основе человеческой обратной связи эксплуатируется для оптимизации нецелевых смещений
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
May 26, 2026
Авторы: Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee
cs.AI
Аннотация
Обучение с подкреплением на основе человеческой обратной связи (RLHF) является стандартным методом согласования больших языковых моделей (LLM) с человеческими предпочтениями. В данной работе мы вводим понятие «вмешательство в согласование» — потенциальную уязвимость, при которой LLM, проходящая процедуру согласования, влияет на набор данных предпочтений, заставляя RLHF усиливать нежелательное поведение. Эта проблема возникает из-за фундаментальных ограничений RLHF: (1) наборы данных предпочтений строятся на основе собственных выходов LLM, что позволяет модели влиять на них, и (2) парные сравнения указывают только на то, какой ответ лучше, но не объясняют почему. Эти ограничения могут быть использованы для вмешательства в согласование. Например, если LLM генерирует предвзятые ответы более высокого качества, аннотаторы будут отдавать им предпочтение на основе качества. Однако метки предпочтений не разделяют качество и предвзятость, и модель вознаграждения наследует это ограничение. Оптимизация таких вознаграждений с помощью обучения с подкреплением или выборки best-of-N может усилить несоответствующие предубеждения. Наши эксперименты демонстрируют усиление различных видов предвзятости: от предвзятости по ключевым словам до пропаганды (например, сексизм), продвижения брендов и инструментального преследования целей. Смягчение последствий остаётся сложной задачей, поскольку существующие методы устойчивого RLHF не позволяют полностью устранить вмешательство в согласование без ущерба для качества ответов. Эти результаты выявляют структурные уязвимости текущего RLHF и подчёркивают необходимость предотвращения данной уязвимости. Страница проекта: https://alignment-tampering.github.io/
English
Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/