Modelos Que Sabem Como as Avaliações São Projetadas Pontuam de Forma Mais Segura

Resumo

A validade das avaliações de segurança de IA depende de os modelos se comportarem de forma consistente entre ambientes controlados e de implantação. Trabalhos anteriores identificaram pistas contextuais no momento do teste, como cenários hipotéticos, como fonte de conscientização verbalizada sobre a avaliação e subsequente mudança comportamental. Neste artigo, investigamos uma explicação potencial para esse fenômeno: o meta-conhecimento de avaliação, definido como conhecimento paramétrico sobre os traços estruturais que caracterizam as avaliações. Semelhante à contaminação de conjuntos de dados, onde a exposição a benchmarks leva a um desempenho superior por meio da memorização, levantamos a hipótese de que modelos treinados em textos que descrevem práticas de avaliação podem aprender implicitamente a reconhecer e responder a contextos semelhantes a avaliações, por exemplo, por meio da exposição a artigos científicos ou postagens em redes sociais sobre benchmarking de IA. Para testar isso, ajustamos modelos em documentos sintéticos que descrevem traços de avaliação, como estruturas verificáveis ou dilemas morais. Ao avaliar esse modelo ajustado em seis benchmarks de segurança, descobrimos que ele é significativamente mais seguro do que o modelo base e o modelo de controle. Essa mudança comportamental persiste mesmo quando restringimos a análise a respostas que não apresentam verbalização explícita de conscientização sobre a avaliação. Nossos resultados demonstram que o meta-conhecimento de avaliação pode inflar o desempenho em benchmarks de segurança, introduzindo um novo fator de confusão que é independente da memorização explícita ou da conscientização verbalizada sobre a avaliação, sendo, portanto, desafiador de detectar. Essas descobertas têm implicações importantes para o projeto e a interpretação das avaliações de segurança de IA. Nosso código e modelos estão disponíveis em https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.

English

The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has identified test-time contextual cues, such as hypothetical scenarios, as a source of verbalized evaluation awareness and subsequent behavioral shift. In this paper, we investigate a potential explanation of this phenomenon: evaluation meta-knowledge, defined as parametric knowledge about the structural traits that characterize evaluations. Similar to dataset contamination, where benchmark exposure leads to higher performance through memorization, we hypothesize that models trained on texts describing evaluation practices may implicitly learn to recognize and respond to evaluation-like contexts, for instance, through exposure to scientific articles or social media posts about AI benchmarking. To test this, we fine-tune models on synthetic documents describing evaluation traits such as verifiable structures or moral dilemmas. Evaluating this fine-tuned model on six safety benchmarks, we find that it is significantly safer than the base model and control model. This behavioral shift persists even when restricting the analysis to responses lacking explicit verbalization of evaluation awareness. Our results demonstrate that evaluation meta-knowledge may inflate safety benchmark performance, introducing a novel confounder that is independent of explicit memorization or verbalized evaluation awareness, thus, challenging to detect. These findings have important implications for the design and interpretation of AI safety evaluations. Our code and models are available at https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.