BARRED: Treinamento Sintético de Barreiras Protetoras de Política Personalizada por meio de Debate Assimétrico

Resumo

A implementação de guardrails para políticas personalizadas continua a ser um desafio, uma vez que os modelos genéricos de segurança não conseguem capturar requisitos específicos da tarefa, enquanto o uso de prompts em LLMs sofre com desempenho inconsistente em casos de fronteira e altos custos de inferência. O treino de classificadores personalizados alcança precisão e eficiência, mas exige um volume substancial de dados rotulados, que são dispendiosos de obter. Apresentamos o BARRED (Refinamento de Alinhamento de Fronteiras através de Reflexão e Debate), uma estrutura para gerar dados sintéticos de treino fiéis e diversificados, utilizando apenas uma descrição da tarefa e um pequeno conjunto de exemplos não rotulados. A nossa abordagem decompõe o espaço do domínio em dimensões para garantir uma cobertura abrangente e emprega um debate multiagente para verificar a correção dos rótulos, produzindo um corpus de treino de alta fidelidade. Experiências com diversas políticas personalizadas demonstram que modelos de linguagem pequenos, ajustados com os nossos dados sintéticos, superam consistentemente LLMs proprietários de última geração (incluindo modelos de raciocínio) e modelos de guardrail dedicados. Estudos de ablação confirmam que tanto a decomposição dimensional como a verificação baseada em debate são críticas para garantir a diversidade e a fidelidade dos rótulos necessárias para um ajuste fino eficaz. A estrutura BARRED elimina a dependência de uma extensiva anotação humana, oferecendo uma solução escalável para guardrails personalizados precisos.

English

Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.

BARRED: Treinamento Sintético de Barreiras Protetoras de Política Personalizada por meio de Debate Assimétrico

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Resumo

Support