Goede modellen denken hetzelfde, en dit ondermijnt het toezicht op AI.
Great Models Think Alike and this Undermines AI Oversight
February 6, 2025
Auteurs: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping
cs.AI
Samenvatting
Naarmate de mogelijkheden van Taalmodellen (TM) toenemen, wordt het voor mensen steeds moeilijker om ze op grote schaal te evalueren en te controleren. Er is hoop dat andere taalmodellen beide taken kunnen automatiseren, wat we "AI-toezicht" noemen. We onderzoeken hoe de gelijkenis tussen modellen beide aspecten van AI-toezicht beïnvloedt door een probabilistische metriek voor TM-gelijkheid voor te stellen op basis van overlap in modelfouten. Met behulp van deze metriek tonen we eerst aan dat scores van TM-als-rechter modellen die lijken op de rechter bevoordelen, waarbij recente resultaten van zelfvoorkeur worden gegeneraliseerd. Vervolgens bestuderen we training op TM-annotaties en vinden we aanvullende kennis tussen de zwakke toezichthouder en het sterke studentenmodel speelt een cruciale rol bij de winst van "zwak-naar-sterk generalisatie". Naarmate de mogelijkheden van modellen toenemen, wordt het moeilijker om hun fouten te vinden, en zouden we meer kunnen vertrouwen op AI-toezicht. We observeren echter een zorgwekkende trend - modelfouten worden meer gelijkend bij toenemende mogelijkheden, wat wijst op risico's van gecorreleerde mislukkingen. Ons werk benadrukt het belang van het rapporteren en corrigeren van modelgelijkenis, vooral in het opkomende paradigma van AI-toezicht.
English
As Language Model (LM) capabilities advance, evaluating and supervising them
at scale is getting harder for humans. There is hope that other language models
can automate both these tasks, which we refer to as "AI Oversight". We study
how model similarity affects both aspects of AI oversight by proposing a
probabilistic metric for LM similarity based on overlap in model mistakes.
Using this metric, we first show that LLM-as-a-judge scores favor models
similar to the judge, generalizing recent self-preference results. Then, we
study training on LM annotations, and find complementary knowledge between the
weak supervisor and strong student model plays a crucial role in gains from
"weak-to-strong generalization". As model capabilities increase, it becomes
harder to find their mistakes, and we might defer more to AI oversight.
However, we observe a concerning trend -- model mistakes are becoming more
similar with increasing capabilities, pointing to risks from correlated
failures. Our work underscores the importance of reporting and correcting for
model similarity, especially in the emerging paradigm of AI oversight.Summary
AI-Generated Summary