Selbsterkennung in Sprachmodellen
Self-Recognition in Language Models
July 9, 2024
Autoren: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Zusammenfassung
Eine schnell wachsende Anzahl von Anwendungen verlässt sich auf eine kleine Anzahl von Closed-Source-Sprachmodellen (LMs). Diese Abhängigkeit könnte neue Sicherheitsrisiken mit sich bringen, wenn LMs Selbsterkennungsfähigkeiten entwickeln. Inspiriert von menschlichen Identitätsverifizierungsmethoden schlagen wir einen neuartigen Ansatz zur Bewertung der Selbsterkennung in LMs vor, indem wir vom Modell generierte "Sicherheitsfragen" verwenden. Unser Test kann extern durchgeführt werden, um die neuesten Modelle im Auge zu behalten, da er keinen Zugriff auf interne Modellparameter oder Ausgabewahrscheinlichkeiten erfordert. Wir verwenden unseren Test, um die Selbsterkennung in zehn der derzeit öffentlich verfügbaren leistungsstärksten Open- und Closed-Source-LMs zu untersuchen. Unsere umfangreichen Experimente ergaben keine empirischen Beweise für eine allgemeine oder konsistente Selbsterkennung in irgendeinem untersuchten LM. Stattdessen legen unsere Ergebnisse nahe, dass LMs, wenn sie vor die Wahl gestellt werden, versuchen, die "beste" Antwort auszuwählen, unabhängig von ihrer Herkunft. Darüber hinaus finden wir Hinweise darauf, dass Präferenzen bezüglich der Modelle, die die besten Antworten liefern, konsistent sind. Wir decken zusätzlich neue Erkenntnisse über Positionsbias-Überlegungen für LMs in Multiple-Choice-Umgebungen auf.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.Summary
AI-Generated Summary