ChatPaper.aiChatPaper

Skalierbare Bewertung der Einhaltung von Richtlinien in Sprachmodellen mit Richtlinienbegründungsspuren

Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces

September 27, 2025
papers.authors: Joseph Marvin Imperial, Harish Tayyar Madabushi
cs.AI

papers.abstract

Die Bewertung der Einhaltung von Richtlinien ist eine grundlegende Aufgabe, bei der überprüft wird, ob ein Eingabefall strikt mit einer Reihe von menschendefinierten Regeln, allgemein bekannt als Richtlinien, übereinstimmt. In der Praxis folgen menschliche Experten einem systematischen, schrittweisen Prozess, um Verstöße gegen spezifische Bestimmungen, die in der Richtlinie festgelegt sind, zu identifizieren. Die Dokumentation solcher Goldstandard- und Expertenebene-Reasoning-Prozesse ist jedoch kostspielig zu erwerben. In diesem Artikel stellen wir Policy Reasoning Traces (PRT) vor, eine Form spezialisierter generierter Reasoning-Ketten, die als Reasoning-Brücke dienen, um die Fähigkeiten eines LLM zur Bewertung der Richtlinieneinhaltung zu verbessern. Unsere empirischen Auswertungen zeigen, dass die Verwendung von PRTs sowohl für Inferenz- als auch für Trainingsszenarien die Leistung von Open-Weight- und kommerziellen Modellen erheblich steigert und einen neuen State-of-the-Art für HIPAA- und GDPR-Richtlinien setzt. Neben Genauigkeitssteigerungen heben wir auch hervor, wie PRTs die Fähigkeit eines LLM verbessern können, Richtlinienklauseln präzise zu zitieren sowie Compliance-Entscheidungen durch ihre hohe Nutzung aus den rohen Gedankenketten zu beeinflussen.
English
Policy compliance assessment is a fundamental task of evaluating whether an input case strictly complies with a set of human-defined rules, more generally known as policies. In practice, human experts follow a systematic, step-by-step process to identify violations with respect to specific stipulations outlined in the policy. However, such documentation of gold-standard, expert-level reasoning processes is costly to acquire. In this paper, we introduce Policy Reasoning Traces (PRT), a form of specialized generated reasoning chains that serve as a reasoning bridge to improve an LLM's policy compliance assessment capabilities. Our empirical evaluations demonstrate that the use of PRTs for both inference-time and training-time scenarios significantly enhances the performance of open-weight and commercial models, setting a new state-of-the-art for HIPAA and GDPR policies. Beyond accuracy gains, we also highlight how PRTs can improve an LLM's ability to accurately cite policy clauses, as well as influence compliance decisions through their high utilization from the raw chains of thought.
PDF02October 6, 2025