ЗАПРЕЩЕНО: Синтетическое обучение пользовательских защитных механизмов политики с помощью асимметричных дебатов
BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate
April 28, 2026
Авторы: Arnon Mazza, Elad Levi
cs.AI
Аннотация
Развертывание защитных механизмов для пользовательских политик остается сложной задачей, поскольку универсальные модели безопасности не способны учитывать специфические требования задачи, в то время как использование промптов для больших языковых моделей (LLM) страдает от нестабильной работы на граничных случаях и высоких вычислительных затрат на вывод. Обучение пользовательских классификаторов обеспечивает и точность, и эффективность, но требует значительного объема размеченных данных, получение которых обходится дорого. Мы представляем BARRED (Boundary Alignment Refinement through REflection and Debate) — фреймворк для генерации достоверных и разнообразных синтетических обучающих данных, используя лишь описание задачи и небольшой набор немаркированных примеров. Наш подход декомпозирует предметную область на измерения для обеспечения всестороннего охвата и применяет многоагентные дебаты для проверки корректности меток, создавая высококачественный обучающий корпус. Эксперименты с различными пользовательскими политиками показывают, что небольшие языковые модели, дообученные на наших синтетических данных, стабильно превосходят передовые проприетарные LLM (включая модели с цепочкой рассуждений) и специализированные модели защитных механизмов. Абляционные исследования подтверждают, что как декомпозиция на измерения, так и верификация на основе дебатов критически важны для обеспечения разнообразия и достоверности меток, необходимых для эффективного тонкого обучения. Фреймворк BARRED устраняет зависимость от масштабной человеческой разметки, предлагая масштабируемое решение для создания точных пользовательских защитных механизмов.
English
Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.