En l'absence de référence : validation de l'évaluation comparative de la sécurité des LLM sans étiquettes de vérité terrain
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
May 7, 2026
Auteurs: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI
Résumé
De nombreux déploiements doivent comparer des modèles de langage candidats en matière de sécurité avant qu'un benchmark annoté n'existe pour la langue, le secteur ou le cadre réglementaire concerné. Nous formalisons cette situation sous le nom d'évaluation comparative de la sécurité sans benchmark et spécifions le contrat selon lequel un audit basé sur des scénarios peut être interprété comme une preuve pour le déploiement. Les scores ne sont valides que sous un pack de scénarios, une grille d'évaluation, un auditeur, un évaluateur, une configuration d'échantillonnage et un budget de réexécution fixes. Étant donné qu'aucune étiquette n'est disponible, nous remplaçons l'accord avec une vérité de référence par une chaîne de validité instrumentale : la sensibilité à un contraste contrôlé sûr contre altéré, la dominance de la variance pilotée par la cible sur les artéfacts de l'auditeur et de l'évaluateur, et la stabilité entre les réexécutions.
Nous instancions cette chaîne dans SimpleAudit, un instrument d'évaluation à vocation locale, et la validons sur un pack de sécurité norvégien. Les cibles sûres et altérées se séparent avec des valeurs d'AUROC comprises entre 0,89 et 1,00, l'identité de la cible est la composante dominante de la variance (η² ≈ 0,52), et les profils de sévérité se stabilisent après dix réexécutions. L'application de la même chaîne à Petri montre qu'elle admet les deux outils. Les différences substantielles apparaissent en amont de la chaîne, dans l'application du contrat de revendication et l'adéquation au déploiement. Un cas d'approvisionnement du secteur public norvégien comparant Borealis et Gemma 3 démontre la preuve résultante en pratique : le modèle le plus sûr dépend de la catégorie de scénario et de la mesure du risque. Par conséquent, les scores, les deltas appariés, les taux critiques, l'incertitude, ainsi que l'auditeur et l'évaluateur utilisés doivent être rapportés ensemble plutôt que d'être agrégés en un classement unique.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns.
We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.