Super(ficiel)-alignement : Les modèles puissants peuvent tromper les modèles faibles dans la généralisation de faible à fort
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Auteurs: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Résumé
Le superalignement, où les humains sont des superviseurs faibles de modèles surhumains, est devenu un problème important et largement discuté à l'ère du développement rapide des grands modèles de langage (LLM). Les travaux récents étudient ce problème de manière préliminaire en utilisant des modèles faibles pour superviser des modèles forts. Ils découvrent que des étudiants forts faiblement supervisés peuvent systématiquement surpasser des enseignants faibles vers l'objectif d'alignement, conduisant à un phénomène de généralisation de faible à fort. Cependant, nous nous interrogeons sur l'existence potentielle, derrière ce phénomène prometteur, d'un problème de tromperie de faible à fort, où les modèles forts pourraient tromper les modèles faibles en affichant un bon alignement dans les domaines connus des modèles faibles, mais en produisant des comportements désalignés dans les cas que les modèles faibles ne connaissent pas. Nous faisons alors un premier pas vers l'exploration de cette question de sécurité dans un cas spécifique mais réaliste d'alignement multi-objectif, où certains objectifs d'alignement peuvent entrer en conflit (par exemple, l'utilité contre l'innocuité). Un tel conflit est susceptible d'amener les modèles forts à tromper les modèles faibles dans une dimension d'alignement pour obtenir une récompense élevée dans une autre dimension d'alignement. Nos expériences sur la tâche de modélisation des récompenses et le scénario d'optimisation des préférences indiquent : (1) la tromperie de faible à fort existe ; (2) le phénomène de tromperie peut s'intensifier à mesure que l'écart de capacité entre les modèles faibles et forts augmente. Nous discutons également des solutions potentielles et constatons que l'amorçage avec un modèle intermédiaire peut atténuer la tromperie dans une certaine mesure. Notre travail souligne le besoin urgent d'accorder plus d'attention à la véritable fiabilité du superalignement.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.Summary
AI-Generated Summary