Auto-reconnaissance dans les modèles de langage
Self-Recognition in Language Models
July 9, 2024
Auteurs: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Résumé
Un nombre croissant d'applications repose sur un petit ensemble de modèles de langage (LMs) propriétaires. Cette dépendance pourrait introduire de nouveaux risques de sécurité si les LMs développent des capacités d'autoreconnaissance. Inspirés par les méthodes de vérification d'identité humaine, nous proposons une nouvelle approche pour évaluer l'autoreconnaissance dans les LMs en utilisant des "questions de sécurité" générées par le modèle. Notre test peut être administré de manière externe pour surveiller les modèles de pointe, car il ne nécessite pas d'accès aux paramètres internes du modèle ou aux probabilités de sortie. Nous utilisons notre test pour examiner l'autoreconnaissance dans dix des LMs open-source et propriétaires les plus performants actuellement disponibles publiquement. Nos expériences approfondies n'ont trouvé aucune preuve empirique d'une autoreconnaissance générale ou cohérente dans aucun des LMs examinés. Au lieu de cela, nos résultats suggèrent que, face à un ensemble d'alternatives, les LMs cherchent à choisir la "meilleure" réponse, quelle que soit son origine. De plus, nous trouvons des indications que les préférences concernant les modèles produisant les meilleures réponses sont cohérentes entre les LMs. Nous découvrons également de nouvelles perspectives sur les considérations de biais de position pour les LMs dans des contextes à choix multiples.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.Summary
AI-Generated Summary