ベンチマーク不在時の検証:正解ラベルを用いない比較的LLM安全性スコアリングの妥当性確認
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
May 7, 2026
著者: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI
要旨
多くの導入事例では、関連する言語、セクター、規制体制に対してラベル付けされたベンチマークが存在しない段階で、候補となる言語モデルの安全性を比較検討する必要がある。我々はこの設定を、**ベンチマークレス比較安全性評価**として形式化し、シナリオベースの監査が導入の証拠として解釈され得る契約条件を特定する。評価値は、固定されたシナリオパック、評価基準、監査者、判定者、サンプリング設定、再実行予算の下でのみ有効である。ラベルが利用できないため、我々は正解データとの一致を、**手段的妥当性の連鎖**で置き換える。すなわち、制御された安全版対破壊版の対照への応答性、対象モデルに起因する分散が監査者や判定者の人為的要素による分散を上回ること、そして再実行間での安定性である。
我々はこの連鎖を、ローカルファーストの評価ツールである**SimpleAudit**において具体化し、ノルウェー語の安全性パックで検証する。安全版と破壊版の対象モデルはAUROC値0.89から1.00で分離され、対象モデルの同一性が分散の主要因となり(η² ≈ 0.52)、深刻度プロファイルは10回の再実行で安定する。同じ連鎖を**Petri**に適用すると、両ツールを許容することが示される。大きな差異は、この連鎖の上流、すなわち主張と契約の履行および導入への適合性の段階で生じる。ノルウェーの公共部門調達の事例では、BorealisとGemma 3を比較し、結果の証拠を実践的に示す:より安全なモデルは、シナリオカテゴリとリスク指標に依存する。したがって、評価値、対応する差分、重大率、不確実性、および使用された監査者と判定者は、単一の順位に集約されるのではなく、まとめて報告されなければならない。
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns.
We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.