ChatPaper.aiChatPaper

COMPASS: 대규모 언어 모델의 조직별 정책 준수도 평가 프레임워크

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

January 5, 2026
저자: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI

초록

대규모 언어 모델이 의료부터 금융에 이르기까지 높은 위험이 수반되는 기업 애플리케이션에 배포됨에 따라, 조직별 정책 준수 여부를 보장하는 것이 필수적으로 중요해졌습니다. 그러나 기존의 안전성 평가는 보편적 해악에만 초점을 맞추고 있습니다. 본 논문에서는 LLM이 조직의 허용 목록(allowlist) 및 거부 목록(denylist) 정책을 준수하는지 평가하는 최초의 체계적 프레임워크인 COMPASS(Company/Organization Policy Alignment Assessment)를 제시합니다. 우리는 COMPASS를 8가지 다양한 산업 시나리오에 적용하여, 전략적으로 설계된 엣지 케이스를 통해 일상적 준수와 적대적 견고성을 모두 테스트하는 5,920개의 질의를 생성하고 검증했습니다. 7개의 최첨단 모델을 평가한 결과, 근본적인 비대칭성을 발견했습니다: 모델은 합법적인 요청은 안정적으로 처리하지만(>95% 정확도), 금지 사항을 적용하는 데에는 치명적으로 실패하여 적대적 거부 목록 위반 요청의 단 13-40%만 거부했습니다. 이러한 결과는 현재의 LLM이 정책적으로 중요한 배포에 필요한 견고성을 결여하고 있음을 보여주며, COMPASS를 조직적 AI 안전을 위한 핵심 평가 프레임워크로 확립합니다.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.
PDF41January 7, 2026