ChatPaper.aiChatPaper

기준이 존재하지 않을 때: 실측 레이블 없이 비교적 LLM 안전성 점수 검증하기

When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7, 2026
저자: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI

초록

많은 현장 배포에서는 관련 언어, 분야 또는 규제 체계에 대한 레이블된 벤치마크가 존재하기 전에 후보 언어 모델의 안전성을 비교해야 합니다. 우리는 이러한 설정을 벤치마크 없는 비교 안전성 점수화로 공식화하고, 시나리오 기반 감사가 배포 증거로 해석될 수 있는 계약 조건을 명시합니다. 점수는 고정된 시나리오 팩, 채점 기준, 감사관, 판단자, 샘플링 구성 및 재실행 예산 하에서만 유효합니다. 레이블이 없기 때문에 우리는 실제 정답 일치를 도구적 타당성 연쇄로 대체합니다: 통제된 안전-대-제거 대비에 대한 반응성, 감사관 및 판단자 인공물보다 목표 대상에 의한 변동성의 우세, 그리고 재실행 간 안정성. 우리는 이 연쇄를 로컬-퍼스트(local-first) 점수화 도구인 SimpleAudit에서 구현하고 노르웨이어 안전 팩으로 이를 검증합니다. 안전 대상과 제거 대상은 AUROC 값 0.89에서 1.00 사이로 분리되며, 대상 정체성이 변동성의 주요 구성 요소이고(η^2 약 0.52), 심각도 프로필은 10회 재실행 시점에 안정화됩니다. 동일한 연쇄를 Petri에 적용하면 두 도구 모두를 수용함을 확인할 수 있습니다. 상당한 차이는 이 연쇄의 상류, 즉 주장-계약 집행과 배포 적합성에서 발생합니다. Borealis와 Gemma 3를 비교하는 노르웨이어 공공部門 조달 사례는 결과적인 증거가 실제로 어떻게 적용되는지 보여줍니다: 더 안전한 모델은 시나리오 범주와 위험 측정 방법에 따라 달라집니다. 결과적으로, 점수, 매칭 델타, 임계율, 불확실성, 그리고 사용된 감사관과 판단자는 단일 순위로 축약되지 않고 함께 보고되어야 합니다.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns. We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.
PDF12May 9, 2026