Самоопределение в языковых моделях
Self-Recognition in Language Models
July 9, 2024
Авторы: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Аннотация
Быстро растущее количество приложений зависит от небольшого набора закрытых языковых моделей (LM). Эта зависимость может привести к появлению новых угроз безопасности, если LM приобретут способность к самоидентификации. Вдохновленные методами верификации личности человека, мы предлагаем новый подход для оценки самоидентификации в LM с использованием созданных моделью "контрольных вопросов по безопасности". Наш тест может быть внешне проведен для отслеживания передовых моделей, поскольку он не требует доступа к внутренним параметрам модели или вероятностям вывода. Мы используем наш тест для изучения самоидентификации в десяти из самых продвинутых открытых и закрытых языковых моделях, в настоящее время общедоступных. Наши обширные эксперименты не выявили эмпирических доказательств общей или последовательной самоидентификации в любой из исследуемых LM. Вместо этого наши результаты указывают на то, что, имея набор альтернатив, LM стремятся выбрать "лучший" ответ, независимо от его происхождения. Более того, мы обнаружили признаки того, что предпочтения относительно того, какие модели дают лучшие ответы, согласованы между LM. Мы также выявили новые аспекты учета позиционного смещения для LM в множественных вариантах ответов.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.Summary
AI-Generated Summary