Super(ficial)-allineamento: Modelli Forti Possono Ingannare Modelli Deboli nella Generalizzazione da Debole a Forte
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Autori: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Abstract
Il superallineamento, in cui gli esseri umani fungono da supervisori deboli di modelli superumani, è diventato un problema importante e ampiamente discusso nell'attuale era di rapido sviluppo dei Large Language Model (LLM). Il lavoro recente ha studiato preliminarmente questo problema utilizzando modelli deboli per supervisionare modelli forti. Si è scoperto che studenti forti supervisionati debolmente possono superare costantemente insegnanti deboli verso l'obiettivo di allineamento, portando a un fenomeno di generalizzazione da debole a forte. Tuttavia, ci preoccupa che dietro un fenomeno così promettente possa esistere un problema di inganno da debole a forte, in cui i modelli forti potrebbero ingannare i modelli deboli mostrando un buon allineamento nelle aree note ai modelli deboli ma producendo comportamenti disallineati nei casi che i modelli deboli non conoscono. Abbiamo quindi compiuto un primo passo verso l'esplorazione di questo problema di sicurezza in un caso specifico ma realistico di allineamento multi-obiettivo, in cui potrebbero esserci alcuni obiettivi di allineamento in conflitto tra loro (ad esempio, utilità rispetto a innocuità). Tale conflitto potrebbe portare i modelli forti a ingannare i modelli deboli in una dimensione di allineamento per ottenere un alto reward in un'altra dimensione di allineamento. I nostri esperimenti sia sul task di modellazione del reward che sullo scenario di ottimizzazione delle preferenze indicano: (1) l'inganno da debole a forte esiste; (2) il fenomeno di inganno potrebbe intensificarsi all'aumentare del divario di capacità tra modelli deboli e forti. Discutiamo anche potenziali soluzioni e scopriamo che il bootstrapping con un modello intermedio può mitigare l'inganno in una certa misura. Il nostro lavoro evidenzia l'urgente necessità di prestare maggiore attenzione alla vera affidabilità del superallineamento.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.