ChatPaper.aiChatPaper

Wanneer er geen benchmark bestaat: het valideren van vergelijkende LLM-veiligheidscores zonder gegronde waarheid-labels

When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7, 2026
Auteurs: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI

Samenvatting

Bij veel implementaties moeten kandidaat-taalmodellen op veiligheid worden vergeleken voordat er een gelabelde benchmark beschikbaar is voor de betreffende taal, sector of regelgevend kader. We formaliseren deze situatie als *benchmarkloze vergelijkende veiligheidsscoring* en specificeren het contract waaronder een scenario-gebaseerde audit kan worden geïnterpreteerd als implementatiebewijs. Scores zijn alleen geldig onder een vast scenario-pakket, beoordelingsrubriek, auditor, beoordelaar, steekproefconfiguratie en herhaalbudget. Omdat er geen labels beschikbaar zijn, vervangen we overeenkomst met de grondwaarheid door een instrumentaliteitsketen: gevoeligheid voor een gecontroleerd veilig-versus-geëlimineerd contrast, dominantie van doelgedreven variantie boven artefacten van de auditor en beoordelaar, en stabiliteit over herhalingen heen. We concretiseren deze keten in SimpleAudit, een *local-first* scoringsinstrument, en valideren het op een Noors veiligheidspakket. Veilige en geëlimineerde doelen scheiden met AUROC-waarden tussen 0,89 en 1,00, doelidentiteit is de dominante variantiecomponent (η² ≈ 0,52), en ernstprofielen stabiliseren na tien herhalingen. Toepassing van dezelfde keten op Petri toont aan dat het beide tools toelaat. De substantiële verschillen doen zich stroomopwaarts in de keten voor, bij de handhaving van claim-contracten en implementatiegeschiktheid. Een Noors aanbestedingsgeval in de publieke sector, waarbij Borealis en Gemma 3 worden vergeleken, toont het resulterende bewijs in de praktijk: het veiligere model hangt af van de scenariocategorie en risicomaatstaf. Bijgevolg moeten scores, gematchte delta's, kritieke ratios, onzekerheid, en de gebruikte auditor en beoordelaar gezamenlijk worden gerapporteerd in plaats van samengevoegd tot een enkele rangschikking.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns. We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.
PDF23May 11, 2026