Wenn es keinen Vergleichsmaßstab gibt: Validierung vergleichender LLM-Sicherheitsbewertungen ohne Ground-Truth-Labels
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
May 7, 2026
Autoren: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI
Zusammenfassung
Viele Einsätze müssen die Sicherheit von Kandidaten für Sprachmodelle vergleichen, bevor ein gelabelter Benchmark für die relevante Sprache, den Sektor oder das regulatorische Rahmenwerk existiert. Wir formalisieren diese Situation als vergleichende Sicherheitsbewertung ohne Benchmark und spezifizieren den Vertrag, unter dem ein szenariobasierter Audit als Einsatznachweis interpretiert werden kann. Die Bewertungen sind nur unter einem festen Szenarienpaket, Bewertungsschema, Auditor, Judge, Sampling-Konfiguration und Rerun-Budget gültig. Da keine Labels verfügbar sind, ersetzen wir die Übereinstimmung mit dem Ground-Truth durch eine Kette instrumenteller Validität: Ansprechen auf einen kontrollierten Safe-versus-Abliterated-Kontrast, Dominanz der zielgetriebenen Varianz über Artefakte des Auditors und Judges sowie Stabilität über Reruns hinweg.
Wir instanziieren diese Kette in SimpleAudit, einem lokal-first Bewertungsinstrument, und validieren es an einem norwegischen Sicherheitspaket. Sichere und abliterierte Ziele trennen sich mit AUROC-Werten zwischen 0,89 und 1,00, die Zielidentität ist die dominante Varianzkomponente (η² ≈ 0,52), und die Schwereprofile stabilisieren sich nach zehn Reruns. Die Anwendung derselben Kette auf Petri zeigt, dass sie beide Werkzeuge zulässt. Die wesentlichen Unterschiede entstehen vorgelagert zur Kette, in der Durchsetzung von Anspruch-Vertrag und der Einsatztauglichkeit. Ein norwegischer Beschaffungsfall im öffentlichen Sektor, der Borealis und Gemma 3 vergleicht, demonstriert die resultierenden Nachweise in der Praxis: Das sicherere Modell hängt von der Szenarienkategorie und dem Risikomaß ab. Folglich müssen Bewertungen, gepaarte Deltas, kritische Raten, Unsicherheit sowie die verwendeten Auditor und Judge gemeinsam berichtet werden, anstatt in einer einzigen Rangfolge zusammengefasst zu werden.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns.
We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.