BARRED: Synthetisches Training von benutzerdefinierten Richtlinien-Grenzen durch asymmetrische Debatte

Zusammenfassung

Die Implementierung von Schutzmaßnahmen für benutzerdefinierte Richtlinien bleibt eine Herausforderung, da generische Sicherheitsmodelle aufgabenspezifische Anforderungen nicht erfassen können, während Prompting von LLMs unter inkonsistenter Leistung in Grenzfällen und hohen Inferenzkosten leidet. Das Training benutzerdefinierter Klassifikatoren erreicht zwar Genauigkeit und Effizienz, erfordert jedoch umfangreiche gelabelte Daten, deren Beschaffung kostspielig ist. Wir stellen BARRED (Boundary Alignment Refinement through REflection and Debate) vor, ein Framework zur Erzeugung von zuverlässigen und diversen synthetischen Trainingsdaten unter Verwendung lediglich einer Aufgabenbeschreibung und einer kleinen Menge ungelabelter Beispiele. Unser Ansatz zerlegt den Domänenraum in Dimensionen, um umfassende Abdeckung zu gewährleisten, und setzt Multi-Agenten-Debatten ein, um die Label-Korrektheit zu verifizieren, was einen hochwertigen Trainingskorpus liefert. Experimente mit verschiedenen benutzerdefinierten Richtlinien zeigen, dass kleine Sprachmodelle, die auf unseren synthetischen Daten feinabgestimmt wurden, durchweg proprietäre State-of-the-Art-LLMs (einschließlich Reasoning-Modelle) und dedizierte Schutzmodelle übertreffen. Ablationsstudien bestätigen, dass sowohl Dimensionszerlegung als auch debattenbasierte Verifikation entscheidend für die Gewährleistung der für effektives Fine-Tuning erforderlichen Diversität und Label-Treue sind. Das BARRED-Framework beseitigt die Abhängigkeit von umfangreicher menschlicher Annotation und bietet eine skalierbare Lösung für präzise benutzerdefinierte Schutzmaßnahmen.

English

Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.

BARRED: Synthetisches Training von benutzerdefinierten Richtlinien-Grenzen durch asymmetrische Debatte

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Zusammenfassung

Support