COMPASS: Структура для оценки соответствия политик организации в больших языковых моделях
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
January 5, 2026
Авторы: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI
Аннотация
По мере внедрения больших языковых моделей в критически важные корпоративные приложения — от здравоохранения до финансов — обеспечение соблюдения специфических политик организаций стало насущной необходимостью. Однако существующие оценки безопасности сосредоточены исключительно на универсальных рисках. Мы представляем COMPASS (Company/Organization Policy Alignment Assessment) — первую систематическую методологию для оценки соблюдения LLM разрешительных и запретительных политик организаций. Применяя COMPASS к восьми различным отраслевым сценариям, мы создали и проверили 5920 запросов, которые тестируют как рутинное соответствие, так и устойчивость к адверсарным атакам через стратегически спроектированные пограничные случаи. Оценивая семь современных моделей, мы выявили фундаментальную асимметрию: модели надежно обрабатывают легитимные запросы (точность >95%), но катастрофически не справляются с применением запретов, отклоняя лишь 13–40% нарушений запретительного списка в адверсарных сценариях. Эти результаты демонстрируют, что современные LLM не обладают достаточной надежностью для развертывания в политически-критичных сферах, что утверждает COMPASS в качестве необходимой системы оценки для обеспечения безопасности ИИ в организациях.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.