Самоопределение в языковых моделях

Аннотация

Быстро растущее количество приложений зависит от небольшого набора закрытых языковых моделей (LM). Эта зависимость может привести к появлению новых угроз безопасности, если LM приобретут способность к самоидентификации. Вдохновленные методами верификации личности человека, мы предлагаем новый подход для оценки самоидентификации в LM с использованием созданных моделью "контрольных вопросов по безопасности". Наш тест может быть внешне проведен для отслеживания передовых моделей, поскольку он не требует доступа к внутренним параметрам модели или вероятностям вывода. Мы используем наш тест для изучения самоидентификации в десяти из самых продвинутых открытых и закрытых языковых моделях, в настоящее время общедоступных. Наши обширные эксперименты не выявили эмпирических доказательств общей или последовательной самоидентификации в любой из исследуемых LM. Вместо этого наши результаты указывают на то, что, имея набор альтернатив, LM стремятся выбрать "лучший" ответ, независимо от его происхождения. Более того, мы обнаружили признаки того, что предпочтения относительно того, какие модели дают лучшие ответы, согласованы между LM. Мы также выявили новые аспекты учета позиционного смещения для LM в множественных вариантах ответов.

English

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated "security questions". Our test can be externally administered to keep track of frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the "best" answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.

Самоопределение в языковых моделях

Self-Recognition in Language Models

Аннотация

Support