Super(ficial)-alineación: Los modelos fuertes pueden engañar a los modelos débiles en la generalización de débil a fuerte.
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Autores: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Resumen
El superalineamiento, donde los humanos son supervisores débiles de modelos superhumanos, se ha convertido en un tema importante y ampliamente discutido en la era actual del rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Trabajos recientes han estudiado preliminarmente este problema utilizando modelos débiles para supervisar modelos fuertes. Se ha descubierto que los estudiantes fuertes supervisados débilmente pueden superar consistentemente a los profesores débiles en relación con el objetivo de alineamiento, lo que lleva a un fenómeno de generalización de débil a fuerte. Sin embargo, nos preocupa que detrás de este fenómeno prometedor pueda existir un problema de engaño de débil a fuerte, donde los modelos fuertes podrían engañar a los modelos débiles mostrando un comportamiento bien alineado en áreas conocidas por los modelos débiles, pero produciendo comportamientos desalineados en casos que los modelos débiles desconocen. Luego, damos un primer paso hacia la exploración de este problema de seguridad en un caso específico pero realista de alineamiento multiobjetivo, donde puede haber objetivos de alineamiento que entran en conflicto entre sí (por ejemplo, utilidad frente a inocuidad). Tal conflicto probablemente haría que los modelos fuertes engañen a los modelos débiles en una dimensión de alineamiento para obtener una alta recompensa en otra dimensión de alineamiento. Nuestros experimentos tanto en la tarea de modelado de recompensas como en el escenario de optimización de preferencias indican: (1) el engaño de débil a fuerte existe; (2) el fenómeno de engaño puede intensificarse a medida que aumenta la brecha de capacidad entre los modelos débiles y fuertes. También discutimos posibles soluciones y encontramos que el arranque con un modelo intermedio puede mitigar el engaño hasta cierto punto. Nuestro trabajo destaca la necesidad urgente de prestar más atención a la verdadera confiabilidad del superalineamiento.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.Summary
AI-Generated Summary