BARRED: Entrenamiento Sintético de Barreras de Política Personalizadas mediante Debate Asimétrico

Resumen

La implementación de salvaguardas para políticas personalizadas sigue siendo un desafío, ya que los modelos de seguridad genéricos no logran capturar los requisitos específicos de la tarea, mientras que el prompting de LLMs adolece de un rendimiento inconsistente en casos límite y altos costos de inferencia. El entrenamiento de clasificadores personalizados logra precisión y eficiencia, pero requiere una cantidad sustancial de datos etiquetados que son costosos de obtener. Presentamos BARRED (Boundary Alignment Refinement through REflection and Debate), un marco para generar datos de entrenamiento sintéticos fieles y diversos utilizando solo una descripción de la tarea y un pequeño conjunto de ejemplos no etiquetados. Nuestro enfoque descompone el espacio del dominio en dimensiones para garantizar una cobertura integral y emplea un debate multiagente para verificar la corrección de las etiquetas, produciendo un corpus de entrenamiento de alta fidelidad. Los experimentos en diversas políticas personalizadas demuestran que los modelos de lenguaje pequeños ajustados con nuestros datos sintéticos superan consistentemente a los LLMs propietarios de última generación (incluyendo modelos de razonamiento) y a los modelos de salvaguarda dedicados. Los estudios de ablación confirman que tanto la descomposición dimensional como la verificación basada en debate son críticas para garantizar la diversidad y fidelidad de las etiquetas necesarias para un ajuste fino efectivo. El marco BARRED elimina la dependencia de la anotación humana extensiva, ofreciendo una solución escalable para salvaguardas personalizadas precisas.

English

Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.

BARRED: Entrenamiento Sintético de Barreras de Política Personalizadas mediante Debate Asimétrico

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Resumen

Support