Auto-riconoscimento nei Modelli Linguistici
Self-Recognition in Language Models
July 9, 2024
Autori: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Abstract
Un numero crescente di applicazioni si affida a un ristretto insieme di modelli linguistici (LM) proprietari. Questa dipendenza potrebbe introdurre nuovi rischi per la sicurezza se i LM sviluppassero capacità di autoriconoscimento. Ispirati dai metodi di verifica dell'identità umana, proponiamo un approccio innovativo per valutare l'autoriconoscimento nei LM utilizzando "domande di sicurezza" generate dal modello. Il nostro test può essere somministrato esternamente per monitorare i modelli di frontiera, poiché non richiede l'accesso ai parametri interni del modello o alle probabilità di output. Utilizziamo il nostro test per esaminare l'autoriconoscimento in dieci dei più capaci LM open-source e proprietari attualmente disponibili pubblicamente. I nostri esperimenti estesi non hanno trovato prove empiriche di un autoriconoscimento generale o consistente in nessuno dei LM esaminati. Invece, i nostri risultati suggeriscono che, dato un insieme di alternative, i LM cercano di scegliere la risposta "migliore", indipendentemente dalla sua origine. Inoltre, troviamo indicazioni che le preferenze su quali modelli producono le risposte migliori sono coerenti tra i LM. Scopriamo inoltre nuove intuizioni sulle considerazioni del bias di posizione per i LM in contesti a scelta multipla.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.