Zelfherkenning in Taalmodellen

Samenvatting

Een snel groeiend aantal toepassingen is afhankelijk van een kleine set gesloten-source taalmodel(len) (LMs). Deze afhankelijkheid kan nieuwe beveiligingsrisico's met zich meebrengen als LMs zelfherkenningscapaciteiten ontwikkelen. Geïnspireerd door methoden voor menselijke identiteitsverificatie, stellen we een nieuwe aanpak voor om zelfherkenning in LMs te beoordelen met behulp van modelgegenereerde "beveiligingsvragen". Onze test kan extern worden uitgevoerd om frontiermodellen te volgen, aangezien deze geen toegang vereist tot interne modelparameters of uitvoerkansen. We gebruiken onze test om zelfherkenning te onderzoeken in tien van de meest capabele open- en gesloten-source LMs die momenteel publiekelijk beschikbaar zijn. Uit onze uitgebreide experimenten blijkt geen empirisch bewijs van algemene of consistente zelfherkenning in enig onderzocht LM. In plaats daarvan suggereren onze resultaten dat LMs, gegeven een set alternatieven, streven naar het kiezen van het "beste" antwoord, ongeacht de oorsprong ervan. Bovendien vinden we aanwijzingen dat voorkeuren over welke modellen de beste antwoorden produceren consistent zijn tussen LMs. Daarnaast onthullen we nieuwe inzichten over positiebiasoverwegingen voor LMs in meerkeuzeomgevingen.

English

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated "security questions". Our test can be externally administered to keep track of frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the "best" answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.

Zelfherkenning in Taalmodellen

Self-Recognition in Language Models

Samenvatting

Support