BARRATO: Addestramento Sintetico di Barriere Protettive di Politica Personalizzata tramite Dibattito Asimmetrico
BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate
April 28, 2026
Autori: Arnon Mazza, Elad Levi
cs.AI
Abstract
L'implementazione di guardrail per politiche personalizzate rimane complessa, poiché i modelli di sicurezza generici non riescono a cogliere requisiti specifici del compito, mentre il prompting di LLM soffre di prestazioni inconsistenti nei casi limite e di elevati costi computazionali. L'addestramento di classificatori personalizzati garantisce sia accuratezza che efficienza, ma richiede grandi quantità di dati etichettati costosi da ottenere. Presentiamo BARRED (Boundary Alignment Refinement through REflection and Debate), un framework per generare dati di addestramento sintetici fedeli e diversificati utilizzando solo una descrizione del compito e un piccolo insieme di esempi non etichettati. Il nostro approccio scompone lo spazio del dominio in dimensioni per garantire una copertura completa e impiega un dibattito multi-agente per verificare la correttezza delle etichette, producendo un corpus di addestramento ad alta fedeltà. Esperimenti su varie politiche personalizzate dimostrano che piccoli modelli linguistici addestrati sui nostri dati sintetici superano costantemente LLM proprietari all'avanguardia (inclusi modelli di ragionamento) e modelli di guardrail dedicati. Studi di ablazione confermano che sia la scomposizione dimensionale che la verifica basata su dibattito sono cruciali per garantire la diversità e la fedeltà delle etichette necessarie per un fine-tuning efficace. Il framework BARRED elimina la dipendenza da annotazioni umane estensive, offrendo una soluzione scalabile per guardrail personalizzati accurati.
English
Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.