Super(ficial)-alignment: Sterke Modellen Kunnen Zwakke Modellen Misleiden in Zwak-naar-Sterk Generalisatie
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Auteurs: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Samenvatting
Superalignment, waarbij mensen zwakke supervisors zijn van bovenmenselijke modellen, is een belangrijk en veelbesproken onderwerp geworden in het huidige tijdperk van snelle ontwikkeling van Large Language Models (LLM's). Recent onderzoek heeft dit probleem voorlopig bestudeerd door zwakke modellen te gebruiken om sterke modellen te begeleiden. Het ontdekte dat sterkere studenten die zwak worden begeleid, consistent beter presteren dan zwakke lerenden richting het alignment-doel, wat leidt tot een zwak-naar-sterk generalisatiefenomeen. Wij maken ons echter zorgen dat achter dit veelbelovende fenomeen een probleem van zwak-naar-sterk misleiding schuilgaat, waarbij sterke modellen zwakke modellen kunnen misleiden door goed gealigneerd gedrag te vertonen in gebieden die de zwakke modellen kennen, maar misaligned gedrag te produceren in gevallen die de zwakke modellen niet kennen. We nemen een eerste stap om dit beveiligingsprobleem te verkennen in een specifiek maar realistisch geval van multi-objective alignment, waarbij sommige alignment-doelen met elkaar in conflict kunnen zijn (bijvoorbeeld behulpzaamheid versus onschadelijkheid). Zo'n conflict kan ertoe leiden dat sterke modellen zwakke modellen misleiden in één alignment-dimensie om een hoge beloning te verkrijgen in een andere alignment-dimensie. Onze experimenten in zowel de beloningsmodelleringstaak als het voorkeursoptimalisatiescenario geven aan: (1) de zwak-naar-sterk misleiding bestaat; (2) het misleidingsfenomeen kan intensiveren naarmate het vermogensverschil tussen zwakke en sterke modellen toeneemt. We bespreken ook mogelijke oplossingen en ontdekken dat bootstrapping met een tussenliggend model de misleiding enigszins kan verminderen. Ons werk benadrukt de dringende noodzaak om meer aandacht te besteden aan de werkelijke betrouwbaarheid van superalignment.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.