ChatPaper.aiChatPaper

Когда эталон отсутствует: валидация сравнительной оценки безопасности больших языковых моделей без размеченных данных

When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7, 2026
Авторы: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
cs.AI

Аннотация

Многие развертывания должны сравнивать кандидатные языковые модели на безопасность до появления размеченного бенчмарка для соответствующего языка, сектора или регуляторного режима. Мы формализуем эту задачу как сравнительную оценку безопасности без бенчмарка и определяем условия, при которых сценарный аудит может интерпретироваться как доказательство для развертывания. Оценки действительны только при фиксированном наборе сценариев, рубрике, аудиторе, оценщике, конфигурации сэмплирования и бюджете перезапусков. Поскольку размеченные данные отсутствуют, мы заменяем согласие с истинными метками инструментальной цепочкой валидности: чувствительностью к контролируемому контрасту "безопасный против искаженного", доминированием целевой дисперсии над артефактами аудитора и оценщика, а также стабильностью при перезапусках. Мы реализуем эту цепочку в SimpleAudit, локальном инструменте оценки, и валидируем его на норвежском наборе сценариев безопасности. Безопасные и искаженные целевые модели разделяются со значениями AUROC от 0,89 до 1,00, идентичность цели является доминирующим компонентом дисперсии (η² ≈ 0,52), а профили серьезности стабилизируются после десяти перезапусков. Применение той же цепочки к Petri показывает, что она допускает оба инструмента. Существенные различия возникают выше по цепочке — в обеспечении соответствия утверждений контракту и пригодности для развертывания. Пример закупок в норвежском государственном секторе, сравнивающий Borealis и Gemma 3, демонстрирует полученные доказательства на практике: выбор более безопасной модели зависит от категории сценария и меры риска. Следовательно, оценки, сопоставленные дельты, критические частоты, неопределенность и используемые аудитор с оценщиком должны сообщаться вместе, а не сворачиваться в единый рейтинг.
English
Many deployments must compare candidate language models for safety before a labeled benchmark exists for the relevant language, sector, or regulatory regime. We formalize this setting as benchmarkless comparative safety scoring and specify the contract under which a scenario-based audit can be interpreted as deployment evidence. Scores are valid only under a fixed scenario pack, rubric, auditor, judge, sampling configuration, and rerun budget. Because no labels are available, we replace ground-truth agreement with an instrumental-validity chain: responsiveness to a controlled safe-versus-abliterated contrast, dominance of target-driven variance over auditor and judge artifacts, and stability across reruns. We instantiate the chain in SimpleAudit, a local-first scoring instrument, and validate it on a Norwegian safety pack. Safe and abliterated targets separate with AUROC values between 0.89 and 1.00, target identity is the dominant variance component (η^2 approx 0.52), and severity profiles stabilize by ten reruns. Applying the same chain to Petri shows that it admits both tools. The substantial differences arise upstream of the chain, in claim-contract enforcement and deployment fit. A Norwegian public-sector procurement case comparing Borealis and Gemma 3 demonstrates the resulting evidence in practice: the safer model depends on scenario category and risk measure. Consequently, scores, matched deltas, critical rates, uncertainty, and the auditor and judge used must be reported together rather than collapsed into a single ranking.
PDF12May 9, 2026