COMPASS: Un Marco para Evaluar la Alineación de Políticas Específicas de la Organización en los LLM
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
January 5, 2026
Autores: Dasol Choi, DongGeon Lee, Brigitta Jesica Kartono, Helena Berndt, Taeyoun Kwon, Joonwon Jang, Haon Park, Hwanjo Yu, Minsuk Kahng
cs.AI
Resumen
A medida que los modelos de lenguaje a gran escala se despliegan en aplicaciones empresariales de alto riesgo, desde la salud hasta las finanzas, garantizar el cumplimiento de políticas específicas de cada organización se ha vuelto esencial. Sin embargo, las evaluaciones de seguridad existentes se centran exclusivamente en daños universales. Presentamos COMPASS (Evaluación de Alineación con Políticas de Empresa/Organización), el primer marco sistemático para evaluar si los LLM cumplen con las políticas de listas de permisos y listas de prohibiciones organizacionales. Aplicamos COMPASS a ocho escenarios industriales diversos, generando y validando 5.920 consultas que prueban tanto el cumplimiento rutinario como la robustez adversarial mediante casos límite diseñados estratégicamente. Al evaluar siete modelos de última generación, descubrimos una asimetría fundamental: los modelos manejan de manera confiable las solicitudes legítimas (>95% de precisión) pero fallan catastróficamente al hacer cumplir las prohibiciones, rechazando solo entre el 13% y el 40% de las violaciones adversariales de las listas de prohibiciones. Estos resultados demuestran que los LLM actuales carecen de la robustez requerida para implementaciones críticas de políticas, estableciendo a COMPASS como un marco de evaluación esencial para la seguridad de la IA organizacional.
English
As large language models are deployed in high-stakes enterprise applications, from healthcare to finance, ensuring adherence to organization-specific policies has become essential. Yet existing safety evaluations focus exclusively on universal harms. We present COMPASS (Company/Organization Policy Alignment Assessment), the first systematic framework for evaluating whether LLMs comply with organizational allowlist and denylist policies. We apply COMPASS to eight diverse industry scenarios, generating and validating 5,920 queries that test both routine compliance and adversarial robustness through strategically designed edge cases. Evaluating seven state-of-the-art models, we uncover a fundamental asymmetry: models reliably handle legitimate requests (>95% accuracy) but catastrophically fail at enforcing prohibitions, refusing only 13-40% of adversarial denylist violations. These results demonstrate that current LLMs lack the robustness required for policy-critical deployments, establishing COMPASS as an essential evaluation framework for organizational AI safety.