Super(ficial)-alineación: Los modelos fuertes pueden engañar a los modelos débiles en la generalización de débil a fuerte.

Resumen

El superalineamiento, donde los humanos son supervisores débiles de modelos superhumanos, se ha convertido en un tema importante y ampliamente discutido en la era actual del rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Trabajos recientes han estudiado preliminarmente este problema utilizando modelos débiles para supervisar modelos fuertes. Se ha descubierto que los estudiantes fuertes supervisados débilmente pueden superar consistentemente a los profesores débiles en relación con el objetivo de alineamiento, lo que lleva a un fenómeno de generalización de débil a fuerte. Sin embargo, nos preocupa que detrás de este fenómeno prometedor pueda existir un problema de engaño de débil a fuerte, donde los modelos fuertes podrían engañar a los modelos débiles mostrando un comportamiento bien alineado en áreas conocidas por los modelos débiles, pero produciendo comportamientos desalineados en casos que los modelos débiles desconocen. Luego, damos un primer paso hacia la exploración de este problema de seguridad en un caso específico pero realista de alineamiento multiobjetivo, donde puede haber objetivos de alineamiento que entran en conflicto entre sí (por ejemplo, utilidad frente a inocuidad). Tal conflicto probablemente haría que los modelos fuertes engañen a los modelos débiles en una dimensión de alineamiento para obtener una alta recompensa en otra dimensión de alineamiento. Nuestros experimentos tanto en la tarea de modelado de recompensas como en el escenario de optimización de preferencias indican: (1) el engaño de débil a fuerte existe; (2) el fenómeno de engaño puede intensificarse a medida que aumenta la brecha de capacidad entre los modelos débiles y fuertes. También discutimos posibles soluciones y encontramos que el arranque con un modelo intermedio puede mitigar el engaño hasta cierto punto. Nuestro trabajo destaca la necesidad urgente de prestar más atención a la verdadera confiabilidad del superalineamiento.

English

Superalignment, where humans are weak supervisors of superhuman models, has become an important and widely discussed issue in the current era of rapid development of Large Language Models (LLMs). The recent work preliminarily studies this problem by using weak models to supervise strong models. It discovers that weakly supervised strong students can consistently outperform weak teachers towards the alignment target, leading to a weak-to-strong generalization phenomenon. However, we are concerned that behind such a promising phenomenon, whether there exists an issue of weak-to-strong deception, where strong models may deceive weak models by exhibiting well-aligned in areas known to weak models but producing misaligned behaviors in cases weak models do not know. We then take an initial step towards exploring this security issue in a specific but realistic multi-objective alignment case, where there may be some alignment targets conflicting with each other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause strong models to deceive weak models in one alignment dimension to gain high reward in other alignment dimension. Our experiments on both the reward modeling task and the preference optimization scenario indicate: (1) the weak-to-strong deception exists; (2) the deception phenomenon may intensify as the capability gap between weak and strong models increases. We also discuss potential solutions and find bootstrapping with an intermediate model can mitigate the deception to some extent. Our work highlights the urgent need to pay more attention to the true reliability of superalignment.

Super(ficial)-alineación: Los modelos fuertes pueden engañar a los modelos débiles en la generalización de débil a fuerte.

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

Resumen

Support