Goede modellen denken hetzelfde, en dit ondermijnt het toezicht op AI.

Samenvatting

Naarmate de mogelijkheden van Taalmodellen (TM) toenemen, wordt het voor mensen steeds moeilijker om ze op grote schaal te evalueren en te controleren. Er is hoop dat andere taalmodellen beide taken kunnen automatiseren, wat we "AI-toezicht" noemen. We onderzoeken hoe de gelijkenis tussen modellen beide aspecten van AI-toezicht beïnvloedt door een probabilistische metriek voor TM-gelijkheid voor te stellen op basis van overlap in modelfouten. Met behulp van deze metriek tonen we eerst aan dat scores van TM-als-rechter modellen die lijken op de rechter bevoordelen, waarbij recente resultaten van zelfvoorkeur worden gegeneraliseerd. Vervolgens bestuderen we training op TM-annotaties en vinden we aanvullende kennis tussen de zwakke toezichthouder en het sterke studentenmodel speelt een cruciale rol bij de winst van "zwak-naar-sterk generalisatie". Naarmate de mogelijkheden van modellen toenemen, wordt het moeilijker om hun fouten te vinden, en zouden we meer kunnen vertrouwen op AI-toezicht. We observeren echter een zorgwekkende trend - modelfouten worden meer gelijkend bij toenemende mogelijkheden, wat wijst op risico's van gecorreleerde mislukkingen. Ons werk benadrukt het belang van het rapporteren en corrigeren van modelgelijkenis, vooral in het opkomende paradigma van AI-toezicht.

English

As Language Model (LM) capabilities advance, evaluating and supervising them at scale is getting harder for humans. There is hope that other language models can automate both these tasks, which we refer to as "AI Oversight". We study how model similarity affects both aspects of AI oversight by proposing a probabilistic metric for LM similarity based on overlap in model mistakes. Using this metric, we first show that LLM-as-a-judge scores favor models similar to the judge, generalizing recent self-preference results. Then, we study training on LM annotations, and find complementary knowledge between the weak supervisor and strong student model plays a crucial role in gains from "weak-to-strong generalization". As model capabilities increase, it becomes harder to find their mistakes, and we might defer more to AI oversight. However, we observe a concerning trend -- model mistakes are becoming more similar with increasing capabilities, pointing to risks from correlated failures. Our work underscores the importance of reporting and correcting for model similarity, especially in the emerging paradigm of AI oversight.

Goede modellen denken hetzelfde, en dit ondermijnt het toezicht op AI.

Great Models Think Alike and this Undermines AI Oversight

Samenvatting

Support