Масштабирование оценки соответствия политикам в языковых моделях с использованием трассировки логики политик
Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces
September 27, 2025
Авторы: Joseph Marvin Imperial, Harish Tayyar Madabushi
cs.AI
Аннотация
Оценка соответствия политике представляет собой фундаментальную задачу, заключающуюся в проверке строгого соблюдения входного случая набором правил, определенных человеком, которые в более широком смысле называются политиками. На практике эксперты следуют систематическому, пошаговому процессу для выявления нарушений в отношении конкретных положений, изложенных в политике. Однако документация эталонных процессов рассуждений экспертного уровня является дорогостоящей для получения. В данной статье мы представляем Policy Reasoning Traces (PRT) — специализированные сгенерированные цепочки рассуждений, которые служат мостом для улучшения способностей языковой модели (LLM) в оценке соответствия политике. Наши эмпирические оценки показывают, что использование PRT как на этапе вывода, так и на этапе обучения значительно повышает производительность как открытых, так и коммерческих моделей, устанавливая новый эталон для политик HIPAA и GDPR. Помимо повышения точности, мы также подчеркиваем, как PRT могут улучшить способность LLM точно цитировать пункты политики, а также влиять на решения о соответствии благодаря их активному использованию в исходных цепочках рассуждений.
English
Policy compliance assessment is a fundamental task of evaluating whether an
input case strictly complies with a set of human-defined rules, more generally
known as policies. In practice, human experts follow a systematic, step-by-step
process to identify violations with respect to specific stipulations outlined
in the policy. However, such documentation of gold-standard, expert-level
reasoning processes is costly to acquire. In this paper, we introduce Policy
Reasoning Traces (PRT), a form of specialized generated reasoning chains that
serve as a reasoning bridge to improve an LLM's policy compliance assessment
capabilities. Our empirical evaluations demonstrate that the use of PRTs for
both inference-time and training-time scenarios significantly enhances the
performance of open-weight and commercial models, setting a new
state-of-the-art for HIPAA and GDPR policies. Beyond accuracy gains, we also
highlight how PRTs can improve an LLM's ability to accurately cite policy
clauses, as well as influence compliance decisions through their high
utilization from the raw chains of thought.