COMPASS: Uma Estrutura para Avaliação do Alinhamento de Políticas Específicas da Organização em LLMs

Resumo

À medida que os modelos de linguagem de grande escala são implementados em aplicações empresariais de alto risco, desde a saúde até finanças, garantir a adesão a políticas específicas da organização tornou-se essencial. No entanto, as avaliações de segurança existentes concentram-se exclusivamente em danos universais. Apresentamos o COMPASS (Avaliação de Alinhamento a Políticas de Empresa/Organização), o primeiro framework sistemático para avaliar se os LLMs cumprem políticas organizacionais de listas de permissões e de restrições. Aplicamos o COMPASS a oito cenários industriais diversos, gerando e validando 5.920 consultas que testam tanto a conformidade rotineira quanto a robustez adversária através de casos limite estrategicamente desenhados. Ao avaliar sete modelos state-of-the-art, descobrimos uma assimetria fundamental: os modelos processam pedidos legítimos com confiabilidade (>95% de precisão), mas falham catastróficamente na aplicação de proibições, recusando apenas 13-40% das violações adversárias das listas de restrições. Estes resultados demonstram que os LLMs atuais carecem da robustez necessária para implementações críticas de políticas, estabelecendo o COMPASS como um framework de avaliação essencial para a segurança de IA organizacional.

English

As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.

COMPASS: Uma Estrutura para Avaliação do Alinhamento de Políticas Específicas da Organização em LLMs

COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

Resumo

Support