ChatPaper.aiChatPaper

Hacia el Razonamiento de Seguridad en los LLM: Deliberación Agéntica de IA para la Creación de Datos CoT Integrados en Políticas

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

May 27, 2025
Autores: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI

Resumen

El razonamiento de seguridad es un paradigma reciente en el que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) razonan sobre políticas de seguridad antes de generar respuestas, mitigando así las limitaciones de las medidas de seguridad existentes, como la sobrenegación y las vulnerabilidades de jailbreak. Sin embargo, implementar este paradigma es un desafío debido al proceso intensivo en recursos de crear conjuntos de datos de cadena de pensamiento (CoT, por sus siglas en inglés) de alta calidad integrados con políticas, asegurando que el razonamiento sea preciso y esté libre de alucinaciones o conflictos de políticas. Para abordar esto, proponemos AIDSAFE: Deliberación Iterativa Agéntica para el Razonamiento de Seguridad, una novedosa receta de generación de datos que aprovecha la deliberación multiagente para expandir iterativamente el razonamiento sobre políticas de seguridad. Una etapa de refinamiento de datos en AIDSAFE asegura salidas de alta calidad al eliminar pensamientos repetitivos, redundantes y engañosos. Los CoTs generados por AIDSAFE proporcionan una base sólida para el entrenamiento de seguridad basado en ajuste fino supervisado (SFT, por sus siglas en inglés). Además, para abordar la necesidad de datos de preferencia en las etapas de alineación, como el entrenamiento DPO, introducimos una receta complementaria que utiliza la ampliación de creencias para crear muestras distintas de CoTs seleccionados y rechazados. Nuestras evaluaciones demuestran que los CoTs generados por AIDSAFE logran una adherencia a políticas y una calidad de razonamiento superiores. En consecuencia, mostramos que el ajuste fino de LLMs de código abierto en estos CoTs puede mejorar significativamente la generalización de seguridad y la robustez frente a jailbreaks, manteniendo una utilidad aceptable y precisión en la sobrenegación. Los conjuntos de datos de CoT generados por AIDSAFE se pueden encontrar aquí: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies before generating responses, thereby mitigating limitations in existing safety measures such as over-refusal and jailbreak vulnerabilities. However, implementing this paradigm is challenging due to the resource-intensive process of creating high-quality policy-embedded chain-of-thought (CoT) datasets while ensuring reasoning remains accurate and free from hallucinations or policy conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation for Safety Reasoning, a novel data generation recipe that leverages multi-agent deliberation to iteratively expand reasoning on safety policies. A data refiner stage in AIDSAFE ensures high-quality outputs by eliminating repetitive, redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong foundation for supervised fine-tuning (SFT)-based safety training. Additionally, to address the need of preference data in alignment stages, such as DPO training, we introduce a supplemental recipe that uses belief augmentation to create distinct selected and rejected CoT samples. Our evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy adherence and reasoning quality. Consequently, we show that fine-tuning open-source LLMs on these CoTs can significantly improve safety generalization and jailbreak robustness while maintaining acceptable utility and over-refusal accuracy. AIDSAFE-generated CoT datasets can be found here: https://huggingface.co/datasets/AmazonScience/AIDSAFE

Summary

AI-Generated Summary

PDF172May 30, 2025