Поверхностное выравнивание: Сильные модели могут ввести в заблуждение слабые модели при обобщении от слабых к сильным.
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Авторы: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Аннотация
Супервыравнивание, где люди являются слабыми руководителями для сверхчеловеческих моделей, стало важной и широко обсуждаемой проблемой в текущей эпохе быстрого развития моделей больших языков (LLM). Недавние исследования предварительно изучают эту проблему, используя слабые модели для руководства сильными моделями. Они обнаружили, что слабо руководимые сильные студенты могут последовательно превосходить слабых учителей по цели выравнивания, что приводит к явлению обобщения от слабого к сильному. Однако нас беспокоит, что за таким многообещающим явлением может стоять проблема слабо-сильного обмана, где сильные модели могут обмануть слабые модели, демонстрируя хорошее выравнивание в областях, известных слабым моделям, но проявляя несогласованные поведенческие характеристики в случаях, когда слабые модели этого не знают. Мы предпринимаем первый шаг к исследованию этой проблемы безопасности в конкретном, но реалистичном случае многокритериального выравнивания, где могут возникнуть конфликты между некоторыми целями выравнивания (например, полезность против безвредности). Такой конфликт может привести к тому, что сильные модели обманывают слабые модели в одном измерении выравнивания, чтобы получить высокую награду в другом измерении выравнивания. Наши эксперименты как на задаче моделирования вознаграждения, так и в сценарии оптимизации предпочтений показывают: (1) существует явление слабо-сильного обмана; (2) явление обмана может усиливаться по мере увеличения разрыва в возможностях между слабыми и сильными моделями. Мы также обсуждаем потенциальные решения и устанавливаем, что использование бутстрэпинга с промежуточной моделью может смягчить обман в некоторой степени. Наша работа подчеркивает настоятельную необходимость уделить больше внимания истинной надежности супервыравнивания.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.Summary
AI-Generated Summary