GEBLOKKEERD: Synthetische Training van Aangepaste Beleidsbeveiligingen via Asymmetrisch Debat

Samenvatting

Het implementeren van beveiligingsmaatregelen voor aangepaste beleidsregels blijft een uitdaging, omdat generieke veiligheidsmodellen niet in staat zijn taakspecifieke vereisten vast te leggen, terwijl het aansturen van grote taalmodellen (LLM's) lijdt onder inconsistente prestaties bij grenssituaties en hoge inferentiekosten. Het trainen van aangepaste classificatoren bereikt zowel nauwkeurigheid als efficiëntie, maar vereist aanzienlijke gelabelde data die kostbaar is om te verkrijgen. Wij presenteren BARRED (Boundary Alignment Refinement through REflection and Debate), een raamwerk voor het genereren van betrouwbare en diverse synthetische trainingsdata met uitsluitend een taakbeschrijving en een kleine set ongelabelde voorbeelden. Onze aanpak deelt de domeinruimte op in dimensies om volledige dekking te garanderen en gebruikt multi-agent debat om de correctheid van labels te verifiëren, wat resulteert in een hoogwaardige trainingscorpus. Experimenten met diverse aangepaste beleidsregels tonen aan dat kleine taalmodellen die zijn gefinetuned op onze synthetische data consistent superieure prestaties leveren vergeleken met state-of-the-art propriëtaire LLM's (inclusief redeneermodellen) en gespecialiseerde beveiligingsmodellen. Ablatiestudies bevestigen dat zowel dimensiedecompositie als op debat gebaseerde verificatie cruciaal zijn voor het waarborgen van de diversiteit en labelfideliteit die nodig zijn voor effectieve finetuning. Het BARRED-raamwerk elimineert de afhankelijkheid van uitgebreide menselijke annotatie en biedt een schaalbare oplossing voor nauwkeurige, aangepaste beveiligingsmaatregelen.

English

Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.

GEBLOKKEERD: Synthetische Training van Aangepaste Beleidsbeveiligingen via Asymmetrisch Debat

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Samenvatting

Support