BARRÉ : Entraînement synthétique de garde-fous de politiques personnalisées via un débat asymétrique

Résumé

Le déploiement de garde-fous pour des politiques personnalisées reste difficile : les modèles de sécurité génériques ne parviennent pas à saisir les exigences spécifiques à la tâche, tandis que l'incitation des LLM souffre de performances incohérentes dans les cas limites et de coûts d'inférence élevés. L'entraînement de classificateurs personnalisés permet d'atteindre à la fois précision et efficacité, mais exige un volume important de données étiquetées, coûteuses à obtenir. Nous présentons BARRED (Boundary Alignment Refinement through REflection and Debate), un cadre pour générer des données d'entraînement synthétiques fidèles et diversifiées en utilisant uniquement une description de la tâche et un petit ensemble d'exemples non étiquetés. Notre approche décompose l'espace du domaine en dimensions pour assurer une couverture complète, et emploie un débat multi-agent pour vérifier l'exactitude des étiquettes, produisant ainsi un corpus d'entraînement de haute fidélité. Des expériences sur diverses politiques personnalisées démontrent que les petits modèles de langage affinés sur nos données synthétiques surpassent systématiquement les LLM propriétaires de pointe (y compris les modèles de raisonnement) et les modèles de garde-fous dédiés. Des études d'ablation confirment que la décomposition dimensionnelle et la vérification par débat sont toutes deux essentielles pour garantir la diversité et la fidélité des étiquettes nécessaires à un affinage efficace. Le cadre BARRED élimine la dépendance à une annotation humaine extensive, offrant une solution évolutive pour des garde-fous personnalisés précis.

English

Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.

BARRÉ : Entraînement synthétique de garde-fous de politiques personnalisées via un débat asymétrique

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Résumé

Support