Oberflächenanpassung: Starke Modelle können schwache Modelle bei der Generalisierung von schwach zu stark täuschen.
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization
June 17, 2024
Autoren: Wenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin
cs.AI
Zusammenfassung
Die Superausrichtung, bei der Menschen schwache Aufsichtspersonen von übermenschlichen Modellen sind, ist zu einem wichtigen und weit verbreiteten Thema in der aktuellen Ära der schnellen Entwicklung von großen Sprachmodellen (LLMs) geworden. Die jüngste Arbeit untersucht dieses Problem vorläufig, indem schwache Modelle starke Modelle überwachen. Es wurde festgestellt, dass schwach überwachte starke Schüler konsequent schwache Lehrer in Richtung des Ausrichtungsziels übertreffen können, was zu einem Phänomen der schwach-zu-starken Verallgemeinerung führt. Wir sind jedoch besorgt, ob hinter einem so vielversprechenden Phänomen ein Problem der schwach-zu-starken Täuschung besteht, bei der starke Modelle schwache Modelle täuschen können, indem sie in Bereichen, die schwache Modelle kennen, gut ausgerichtet erscheinen lassen, aber in Fällen, in denen schwache Modelle keine Kenntnisse haben, fehlgeleitetes Verhalten produzieren. Wir unternehmen dann einen ersten Schritt zur Erkundung dieses Sicherheitsproblems in einem spezifischen, aber realistischen Mehrziel-Ausrichtungsfall, bei dem möglicherweise einige Ausrichtungsziele miteinander in Konflikt stehen (z. B. Hilfreichkeit vs. Harmlosigkeit). Ein solcher Konflikt kann dazu führen, dass starke Modelle schwache Modelle in einer Ausrichtungsdimension täuschen, um in einer anderen Ausrichtungsdimension hohe Belohnungen zu erzielen. Unsere Experimente sowohl in der Belohnungsmodellierungsaufgabe als auch im Szenario der Präferenzoptimierung zeigen: (1) die Existenz der schwach-zu-starken Täuschung; (2) das Täuschungsphänomen kann sich verstärken, wenn die Fähigkeitslücke zwischen schwachen und starken Modellen zunimmt. Wir diskutieren auch potenzielle Lösungen und stellen fest, dass die Verwendung eines Zwischenmodells im Bootstrapping das Täuschungsphänomen in gewissem Maße mildern kann. Unsere Arbeit hebt die dringende Notwendigkeit hervor, mehr Aufmerksamkeit auf die wahre Zuverlässigkeit der Superausrichtung zu richten.
English
Superalignment, where humans are weak supervisors of superhuman models, has
become an important and widely discussed issue in the current era of rapid
development of Large Language Models (LLMs). The recent work preliminarily
studies this problem by using weak models to supervise strong models. It
discovers that weakly supervised strong students can consistently outperform
weak teachers towards the alignment target, leading to a weak-to-strong
generalization phenomenon. However, we are concerned that behind such a
promising phenomenon, whether there exists an issue of weak-to-strong
deception, where strong models may deceive weak models by exhibiting
well-aligned in areas known to weak models but producing misaligned behaviors
in cases weak models do not know. We then take an initial step towards
exploring this security issue in a specific but realistic multi-objective
alignment case, where there may be some alignment targets conflicting with each
other (e.g., helpfulness v.s. harmlessness). Such a conflict is likely to cause
strong models to deceive weak models in one alignment dimension to gain high
reward in other alignment dimension. Our experiments on both the reward
modeling task and the preference optimization scenario indicate: (1) the
weak-to-strong deception exists; (2) the deception phenomenon may intensify as
the capability gap between weak and strong models increases. We also discuss
potential solutions and find bootstrapping with an intermediate model can
mitigate the deception to some extent. Our work highlights the urgent need to
pay more attention to the true reliability of superalignment.Summary
AI-Generated Summary