Hacia el Razonamiento de Seguridad en los LLM: Deliberación Agéntica de IA para la Creación de Datos CoT Integrados en Políticas
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
Autores: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
Resumen
El razonamiento de seguridad es un paradigma reciente en el que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) razonan sobre políticas de seguridad antes de generar respuestas, mitigando así las limitaciones de las medidas de seguridad existentes, como la sobrenegación y las vulnerabilidades de jailbreak. Sin embargo, implementar este paradigma es un desafío debido al proceso intensivo en recursos de crear conjuntos de datos de cadena de pensamiento (CoT, por sus siglas en inglés) de alta calidad integrados con políticas, asegurando que el razonamiento sea preciso y esté libre de alucinaciones o conflictos de políticas. Para abordar esto, proponemos AIDSAFE: Deliberación Iterativa Agéntica para el Razonamiento de Seguridad, una novedosa receta de generación de datos que aprovecha la deliberación multiagente para expandir iterativamente el razonamiento sobre políticas de seguridad. Una etapa de refinamiento de datos en AIDSAFE asegura salidas de alta calidad al eliminar pensamientos repetitivos, redundantes y engañosos. Los CoTs generados por AIDSAFE proporcionan una base sólida para el entrenamiento de seguridad basado en ajuste fino supervisado (SFT, por sus siglas en inglés). Además, para abordar la necesidad de datos de preferencia en las etapas de alineación, como el entrenamiento DPO, introducimos una receta complementaria que utiliza la ampliación de creencias para crear muestras distintas de CoTs seleccionados y rechazados. Nuestras evaluaciones demuestran que los CoTs generados por AIDSAFE logran una adherencia a políticas y una calidad de razonamiento superiores. En consecuencia, mostramos que el ajuste fino de LLMs de código abierto en estos CoTs puede mejorar significativamente la generalización de seguridad y la robustez frente a jailbreaks, manteniendo una utilidad aceptable y precisión en la sobrenegación. Los conjuntos de datos de CoT generados por AIDSAFE se pueden encontrar aquí: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFESummary
AI-Generated Summary