Auto-Reconhecimento em Modelos de Linguagem
Self-Recognition in Language Models
July 9, 2024
Autores: Tim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre
cs.AI
Resumo
Um número crescente de aplicações depende de um pequeno conjunto de modelos de linguagem (LMs) de código fechado. Essa dependência pode introduzir novos riscos de segurança caso os LMs desenvolvam capacidades de auto-reconhecimento. Inspirados em métodos de verificação de identidade humana, propomos uma abordagem inovadora para avaliar o auto-reconhecimento em LMs usando "perguntas de segurança" geradas pelo modelo. Nosso teste pode ser administrado externamente para acompanhar os modelos de ponta, pois não requer acesso aos parâmetros internos do modelo ou probabilidades de saída. Utilizamos nosso teste para examinar o auto-reconhecimento em dez dos LMs de código aberto e fechado mais capazes atualmente disponíveis publicamente. Nossos experimentos extensivos não encontraram evidências empíricas de auto-reconhecimento geral ou consistente em nenhum dos LMs examinados. Em vez disso, nossos resultados sugerem que, diante de um conjunto de alternativas, os LMs buscam selecionar a resposta "melhor", independentemente de sua origem. Além disso, encontramos indicações de que as preferências sobre quais modelos produzem as melhores respostas são consistentes entre os LMs. Adicionalmente, descobrimos novas percepções sobre considerações de viés de posição para LMs em configurações de múltipla escolha.
English
A rapidly growing number of applications rely on a small set of closed-source
language models (LMs). This dependency might introduce novel security risks if
LMs develop self-recognition capabilities. Inspired by human identity
verification methods, we propose a novel approach for assessing
self-recognition in LMs using model-generated "security questions". Our test
can be externally administered to keep track of frontier models as it does not
require access to internal model parameters or output probabilities. We use our
test to examine self-recognition in ten of the most capable open- and
closed-source LMs currently publicly available. Our extensive experiments found
no empirical evidence of general or consistent self-recognition in any examined
LM. Instead, our results suggest that given a set of alternatives, LMs seek to
pick the "best" answer, regardless of its origin. Moreover, we find indications
that preferences about which models produce the best answers are consistent
across LMs. We additionally uncover novel insights on position bias
considerations for LMs in multiple-choice settings.