Zelfherkenning in Taalmodellen
Self-Recognition in Language Models
July 9, 2024
Auteurs: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Samenvatting
Een snel groeiend aantal toepassingen is afhankelijk van een kleine set gesloten-source taalmodel(len) (LMs). Deze afhankelijkheid kan nieuwe beveiligingsrisico's met zich meebrengen als LMs zelfherkenningscapaciteiten ontwikkelen. Geïnspireerd door methoden voor menselijke identiteitsverificatie, stellen we een nieuwe aanpak voor om zelfherkenning in LMs te beoordelen met behulp van modelgegenereerde "beveiligingsvragen". Onze test kan extern worden uitgevoerd om frontiermodellen te volgen, aangezien deze geen toegang vereist tot interne modelparameters of uitvoerkansen. We gebruiken onze test om zelfherkenning te onderzoeken in tien van de meest capabele open- en gesloten-source LMs die momenteel publiekelijk beschikbaar zijn. Uit onze uitgebreide experimenten blijkt geen empirisch bewijs van algemene of consistente zelfherkenning in enig onderzocht LM. In plaats daarvan suggereren onze resultaten dat LMs, gegeven een set alternatieven, streven naar het kiezen van het "beste" antwoord, ongeacht de oorsprong ervan. Bovendien vinden we aanwijzingen dat voorkeuren over welke modellen de beste antwoorden produceren consistent zijn tussen LMs. Daarnaast onthullen we nieuwe inzichten over positiebiasoverwegingen voor LMs in meerkeuzeomgevingen.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.