LLM의 안전성 추론을 향하여: 정책 내재형 CoT 데이터 생성을 위한 AI 에이전트적 숙고
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation
May 27, 2025
저자: Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris
cs.AI
초록
안전 추론(Safety Reasoning)은 대형 언어 모델(LLM)이 응답을 생성하기 전에 안전 정책에 대해 추론함으로써, 과도한 거부(over-refusal) 및 탈옥(jailbreak) 취약점과 같은 기존 안전 조치의 한계를 완화하는 최근의 패러다임이다. 그러나 이 패러다임을 구현하는 것은 고품질의 정책 내재적 사고 연쇄(Chain-of-Thought, CoT) 데이터셋을 생성하는 데 필요한 자원 집약적 과정과 함께, 추론이 정확하고 환각(hallucination) 또는 정책 충돌로부터 자유로워야 한다는 점에서 도전적이다. 이를 해결하기 위해, 우리는 AIDSAFE(Agentic Iterative Deliberation for Safety Reasoning)를 제안한다. 이는 다중 에이전트 협의를 활용하여 안전 정책에 대한 추론을 반복적으로 확장하는 새로운 데이터 생성 방법이다. AIDSAFE의 데이터 정제 단계는 반복적, 중복적, 그리고 기만적인 사고를 제거함으로써 고품질의 출력을 보장한다. AIDSAFE로 생성된 CoT는 지도 미세 조정(Supervised Fine-Tuning, SFT) 기반의 안전 훈련을 위한 강력한 기반을 제공한다. 또한, DPO(Direct Preference Optimization) 훈련과 같은 정렬 단계에서 선호 데이터의 필요성을 해결하기 위해, 우리는 신념 증강(belief augmentation)을 사용하여 선택된 CoT 샘플과 거부된 CoT 샘플을 구별적으로 생성하는 보조 방법을 도입한다. 우리의 평가 결과, AIDSAFE로 생성된 CoT는 우수한 정책 준수 및 추론 품질을 달성함을 보여준다. 결과적으로, 이러한 CoT를 사용하여 오픈소스 LLM을 미세 조정하면 안전 일반화 및 탈옥 견고성을 크게 개선하면서도 허용 가능한 유용성과 과도한 거부 정확성을 유지할 수 있음을 보여준다. AIDSAFE로 생성된 CoT 데이터셋은 다음 링크에서 확인할 수 있다: https://huggingface.co/datasets/AmazonScience/AIDSAFE
English
Safety reasoning is a recent paradigm where LLMs reason over safety policies
before generating responses, thereby mitigating limitations in existing safety
measures such as over-refusal and jailbreak vulnerabilities. However,
implementing this paradigm is challenging due to the resource-intensive process
of creating high-quality policy-embedded chain-of-thought (CoT) datasets while
ensuring reasoning remains accurate and free from hallucinations or policy
conflicts. To tackle this, we propose AIDSAFE: Agentic Iterative Deliberation
for Safety Reasoning, a novel data generation recipe that leverages multi-agent
deliberation to iteratively expand reasoning on safety policies. A data refiner
stage in AIDSAFE ensures high-quality outputs by eliminating repetitive,
redundant, and deceptive thoughts. AIDSAFE-generated CoTs provide a strong
foundation for supervised fine-tuning (SFT)-based safety training.
Additionally, to address the need of preference data in alignment stages, such
as DPO training, we introduce a supplemental recipe that uses belief
augmentation to create distinct selected and rejected CoT samples. Our
evaluations demonstrate that AIDSAFE-generated CoTs achieve superior policy
adherence and reasoning quality. Consequently, we show that fine-tuning
open-source LLMs on these CoTs can significantly improve safety generalization
and jailbreak robustness while maintaining acceptable utility and over-refusal
accuracy. AIDSAFE-generated CoT datasets can be found here:
https://huggingface.co/datasets/AmazonScience/AIDSAFESummary
AI-Generated Summary