Gute Modelle denken ähnlich, und das untergräbt die Aufsicht über KI.
Great Models Think Alike and this Undermines AI Oversight
February 6, 2025
Autoren: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping
cs.AI
Zusammenfassung
Mit dem Fortschreiten der Fähigkeiten von Sprachmodellen (LM) wird es für Menschen immer schwieriger, sie in großem Maßstab zu bewerten und zu überwachen. Es besteht die Hoffnung, dass andere Sprachmodelle diese Aufgaben automatisieren können, was wir als "KI-Aufsicht" bezeichnen. Wir untersuchen, wie die Ähnlichkeit von Modellen beide Aspekte der KI-Aufsicht beeinflusst, indem wir eine probabilistische Metrik für die LM-Ähnlichkeit vorschlagen, die auf der Überlappung von Modellfehlern basiert. Unter Verwendung dieser Metrik zeigen wir zunächst, dass Bewertungen von LLM-als-Richter-Modellen Modelle bevorzugen, die dem Richter ähnlich sind, was die jüngsten Ergebnisse zur Selbstpräferenz verallgemeinert. Anschließend untersuchen wir das Training anhand von LM-Anmerkungen und stellen fest, dass das ergänzende Wissen zwischen dem schwachen Aufseher und dem starken Schülermodell eine entscheidende Rolle bei den Gewinnen durch "schwache-zu-starke Verallgemeinerung" spielt. Mit zunehmenden Fähigkeiten der Modelle wird es schwieriger, ihre Fehler zu finden, und wir könnten uns mehr auf KI-Aufsicht verlassen. Wir beobachten jedoch einen besorgniserregenden Trend - mit steigenden Fähigkeiten werden Modellfehler immer ähnlicher, was auf Risiken durch korrelierte Ausfälle hinweist. Unsere Arbeit unterstreicht die Bedeutung der Berichterstattung über Modellähnlichkeit und deren Korrektur, insbesondere im aufkommenden Paradigma der KI-Aufsicht.
English
As Language Model (LM) capabilities advance, evaluating and supervising them
at scale is getting harder for humans. There is hope that other language models
can automate both these tasks, which we refer to as "AI Oversight". We study
how model similarity affects both aspects of AI oversight by proposing a
probabilistic metric for LM similarity based on overlap in model mistakes.
Using this metric, we first show that LLM-as-a-judge scores favor models
similar to the judge, generalizing recent self-preference results. Then, we
study training on LM annotations, and find complementary knowledge between the
weak supervisor and strong student model plays a crucial role in gains from
"weak-to-strong generalization". As model capabilities increase, it becomes
harder to find their mistakes, and we might defer more to AI oversight.
However, we observe a concerning trend -- model mistakes are becoming more
similar with increasing capabilities, pointing to risks from correlated
failures. Our work underscores the importance of reporting and correcting for
model similarity, especially in the emerging paradigm of AI oversight.