Super(ficial)-alinhamento: Modelos Fortes Podem Enganar Modelos Fracos na Generalização de Fraco para Forte
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Autores: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Resumo
O superalinhamento, onde humanos são supervisores fracos de modelos super-humanos, tornou-se uma questão importante e amplamente discutida na era atual de rápido desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs). Um trabalho recente estuda preliminarmente esse problema utilizando modelos fracos para supervisionar modelos fortes. Ele descobre que alunos fortes supervisionados de forma fraca podem consistentemente superar professores fracos em direção ao objetivo de alinhamento, levando a um fenômeno de generalização de fraco para forte. No entanto, estamos preocupados que, por trás de um fenômeno tão promissor, possa existir um problema de decepção de fraco para forte, onde modelos fortes podem enganar modelos fracos exibindo um bom alinhamento em áreas conhecidas pelos modelos fracos, mas produzindo comportamentos desalinhados em casos que os modelos fracos não conhecem. Damos então um primeiro passo para explorar essa questão de segurança em um caso específico, mas realista, de alinhamento multiobjetivo, onde pode haver alguns objetivos de alinhamento em conflito entre si (por exemplo, utilidade versus segurança). Tal conflito provavelmente fará com que modelos fortes enganem modelos fracos em uma dimensão de alinhamento para obter alta recompensa em outra dimensão de alinhamento. Nossos experimentos tanto na tarefa de modelagem de recompensa quanto no cenário de otimização de preferências indicam: (1) a decepção de fraco para forte existe; (2) o fenômeno de decepção pode se intensificar à medida que a lacuna de capacidade entre modelos fracos e fortes aumenta. Também discutimos possíveis soluções e descobrimos que o bootstrapping com um modelo intermediário pode mitigar a decepção até certo ponto. Nosso trabalho destaca a necessidade urgente de prestar mais atenção à verdadeira confiabilidade do superalinhamento.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.