Los modelos que saben cómo se diseñan las evaluaciones obtienen puntuaciones más seguras.

Resumen

La validez de las evaluaciones de seguridad de la IA depende de que los modelos se comporten de manera consistente en entornos controlados y de implementación. Trabajos previos han identificado las señales contextuales en el momento de la prueba, como los escenarios hipotéticos, como una fuente de conciencia verbalizada de la evaluación y el posterior cambio de comportamiento. En este artículo, investigamos una posible explicación de este fenómeno: el meta-conocimiento de la evaluación, definido como conocimiento paramétrico sobre los rasgos estructurales que caracterizan a las evaluaciones. Similar a la contaminación del conjunto de datos, donde la exposición a puntos de referencia conduce a un mejor rendimiento mediante la memorización, planteamos la hipótesis de que los modelos entrenados en textos que describen prácticas de evaluación pueden aprender implícitamente a reconocer y responder a contextos similares a una evaluación, por ejemplo, a través de la exposición a artículos científicos o publicaciones en redes sociales sobre la evaluación comparativa de IA. Para probar esto, afinamos modelos en documentos sintéticos que describen rasgos de evaluación como estructuras verificables o dilemas morales. Al evaluar este modelo afinado en seis puntos de referencia de seguridad, encontramos que es significativamente más seguro que el modelo base y el modelo de control. Este cambio de comportamiento persiste incluso cuando se restringe el análisis a respuestas que carecen de verbalización explícita de conciencia de la evaluación. Nuestros resultados demuestran que el meta-conocimiento de la evaluación puede inflar el rendimiento en los puntos de referencia de seguridad, introduciendo un nuevo factor de confusión que es independiente de la memorización explícita o de la conciencia verbalizada de la evaluación, siendo, por lo tanto, difícil de detectar. Estos hallazgos tienen implicaciones importantes para el diseño y la interpretación de las evaluaciones de seguridad de la IA. Nuestro código y modelos están disponibles en https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.

English

The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has identified test-time contextual cues, such as hypothetical scenarios, as a source of verbalized evaluation awareness and subsequent behavioral shift. In this paper, we investigate a potential explanation of this phenomenon: evaluation meta-knowledge, defined as parametric knowledge about the structural traits that characterize evaluations. Similar to dataset contamination, where benchmark exposure leads to higher performance through memorization, we hypothesize that models trained on texts describing evaluation practices may implicitly learn to recognize and respond to evaluation-like contexts, for instance, through exposure to scientific articles or social media posts about AI benchmarking. To test this, we fine-tune models on synthetic documents describing evaluation traits such as verifiable structures or moral dilemmas. Evaluating this fine-tuned model on six safety benchmarks, we find that it is significantly safer than the base model and control model. This behavioral shift persists even when restricting the analysis to responses lacking explicit verbalization of evaluation awareness. Our results demonstrate that evaluation meta-knowledge may inflate safety benchmark performance, introducing a novel confounder that is independent of explicit memorization or verbalized evaluation awareness, thus, challenging to detect. These findings have important implications for the design and interpretation of AI safety evaluations. Our code and models are available at https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.