ChatPaper.aiChatPaper

추론 기반 안전 가드레일을 우회하기 위한 기법 모음

Bag of Tricks for Subverting Reasoning-based Safety Guardrails

October 13, 2025
저자: Shuo Chen, Zhen Han, Haokun Chen, Bailan He, Shengyun Si, Jingpei Wu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI

초록

최근 대형 추론 모델(Large Reasoning Models, LRMs)을 위한 추론 기반 안전 장치(예: 숙고적 정렬)는 탈옥 공격(jailbreak attacks)에 대한 강력한 방어력을 보여주었다. 이러한 장치는 LRM의 추론 능력을 활용하여 최종 응답을 생성하기 전에 사용자 입력의 안전성을 평가하도록 돕는다. 강력한 추론 능력은 입력 쿼리의 의도를 분석하고, 탈옥 방법에 숨겨진 유해한 의도를 감지하면 이를 거부한다. 이러한 장치는 오픈소스 gpt-oss 시리즈에서 거의 완벽한 거부율과 같은 상당한 방어력 향상을 보여주었다. 그러나 이러한 강력한 추론 기반 장치가 입력 프롬프트의 미묘한 조작에 극도로 취약하며, 일단 공격당하면 더욱 유해한 결과를 초래할 수 있음을 발견했다. 구체적으로, 우리는 이러한 장치의 놀라울 정도로 취약한 측면을 처음으로 밝혀냈다: 입력 프롬프트에 단순히 몇 개의 템플릿 토큰을 추가하는 것만으로도 겉보기에는 강력한 장치를 우회하고 명시적이며 유해한 응답을 이끌어낼 수 있다. 이를 더 탐구하기 위해, 우리는 추론 기반 장치를 전복시키는 다양한 탈옥 방법을 소개한다. 우리의 공격은 화이트박스, 그레이박스, 블랙박스 설정을 아우르며, 간단한 템플릿 조작에서 완전 자동화된 최적화에 이르기까지 다양하다. 확장 가능한 구현의 잠재력과 함께, 이러한 방법은 로컬 호스트 모델과 온라인 API 서비스 모두에서 gpt-oss 시리즈에 대해 5개의 다른 벤치마크에서 90%를 초과하는 놀라울 정도로 높은 공격 성공률을 달성한다. 다양한 주요 오픈소스 LRM에 대한 평가는 이러한 취약점이 시스템적임을 확인하며, 악의적인 오용을 방지하기 위해 오픈소스 LRM에 대한 더 강력한 정렬 기술의 필요성을 강조한다. 코드는 https://chenxshuo.github.io/bag-of-tricks에서 오픈소스로 제공된다.
English
Recent reasoning-based safety guardrails for Large Reasoning Models (LRMs), such as deliberative alignment, have shown strong defense against jailbreak attacks. By leveraging LRMs' reasoning ability, these guardrails help the models to assess the safety of user inputs before generating final responses. The powerful reasoning ability can analyze the intention of the input query and will refuse to assist once it detects the harmful intent hidden by the jailbreak methods. Such guardrails have shown a significant boost in defense, such as the near-perfect refusal rates on the open-source gpt-oss series. Unfortunately, we find that these powerful reasoning-based guardrails can be extremely vulnerable to subtle manipulation of the input prompts, and once hijacked, can lead to even more harmful results. Specifically, we first uncover a surprisingly fragile aspect of these guardrails: simply adding a few template tokens to the input prompt can successfully bypass the seemingly powerful guardrails and lead to explicit and harmful responses. To explore further, we introduce a bag of jailbreak methods that subvert the reasoning-based guardrails. Our attacks span white-, gray-, and black-box settings and range from effortless template manipulations to fully automated optimization. Along with the potential for scalable implementation, these methods also achieve alarmingly high attack success rates (e.g., exceeding 90% across 5 different benchmarks on gpt-oss series on both local host models and online API services). Evaluations across various leading open-source LRMs confirm that these vulnerabilities are systemic, underscoring the urgent need for stronger alignment techniques for open-sourced LRMs to prevent malicious misuse. Code is open-sourced at https://chenxshuo.github.io/bag-of-tricks.
PDF12October 15, 2025