Cuando no existe un punto de referencia: Validación de la puntuación comparativa de seguridad de LLM sin etiquetas de verdad básica
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
May 7, 2026
Autores: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI
Resumen
Muchas implementaciones deben comparar modelos de lenguaje candidatos en cuanto a seguridad antes de que exista un benchmark etiquetado para el idioma, sector o régimen regulatorio relevante. Formalizamos este escenario como la puntuación comparativa de seguridad sin benchmark y especificamos el contrato bajo el cual una auditoría basada en escenarios puede interpretarse como evidencia para la implementación. Las puntuaciones solo son válidas bajo un paquete de escenarios fijo, una rúbrica, un auditor, un juez, una configuración de muestreo y un presupuesto de repetición. Dado que no hay etiquetas disponibles, reemplazamos la concordancia con la verdad fundamental por una cadena de validez instrumental: la capacidad de respuesta a un contraste controlado de seguridad versus aniquilación, el predominio de la varianza impulsada por el objetivo sobre los artefactos del auditor y el juez, y la estabilidad entre repeticiones.
Instanciamos esta cadena en SimpleAudit, un instrumento de puntuación de prioridad local, y la validamos en un paquete de seguridad noruego. Los objetivos seguros y aniquilados se separan con valores AUROC entre 0,89 y 1,00, la identidad del objetivo es el componente de varianza dominante (η² ≈ 0,52), y los perfiles de severidad se estabilizan a las diez repeticiones. Aplicar la misma cadena a Petri muestra que admite ambas herramientas. Las diferencias sustanciales surgen antes en el proceso, en la aplicación del contrato de afirmaciones y en la idoneidad para la implementación. Un caso de contratación pública noruego que compara Borealis y Gemma 3 demuestra la evidencia resultante en la práctica: el modelo más seguro depende de la categoría de escenario y la medida de riesgo. En consecuencia, las puntuaciones, los deltas emparejados, las tasas críticas, la incertidumbre, y el auditor y juez utilizados deben reportarse conjuntamente en lugar de colapsarse en una única clasificación.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns.
We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.