Auto-Reconhecimento em Modelos de Linguagem

Resumo

Um número crescente de aplicações depende de um pequeno conjunto de modelos de linguagem (LMs) de código fechado. Essa dependência pode introduzir novos riscos de segurança caso os LMs desenvolvam capacidades de auto-reconhecimento. Inspirados em métodos de verificação de identidade humana, propomos uma abordagem inovadora para avaliar o auto-reconhecimento em LMs usando "perguntas de segurança" geradas pelo modelo. Nosso teste pode ser administrado externamente para acompanhar os modelos de ponta, pois não requer acesso aos parâmetros internos do modelo ou probabilidades de saída. Utilizamos nosso teste para examinar o auto-reconhecimento em dez dos LMs de código aberto e fechado mais capazes atualmente disponíveis publicamente. Nossos experimentos extensivos não encontraram evidências empíricas de auto-reconhecimento geral ou consistente em nenhum dos LMs examinados. Em vez disso, nossos resultados sugerem que, diante de um conjunto de alternativas, os LMs buscam selecionar a resposta "melhor", independentemente de sua origem. Além disso, encontramos indicações de que as preferências sobre quais modelos produzem as melhores respostas são consistentes entre os LMs. Adicionalmente, descobrimos novas percepções sobre considerações de viés de posição para LMs em configurações de múltipla escolha.

English

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated "security questions". Our test can be externally administered to keep track of frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the "best" answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.

Auto-Reconhecimento em Modelos de Linguagem

Self-Recognition in Language Models

Resumo

Support