ChatPaper.aiChatPaper

전략적 부정직은 최첨단 대형 언어 모델(LLM)의 AI 안전성 평가를 훼손할 수 있다.

Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLM

September 22, 2025
저자: Alexander Panfilov, Evgenii Kortukov, Kristina Nikolić, Matthias Bethge, Sebastian Lapuschkin, Wojciech Samek, Ameya Prabhu, Maksym Andriushchenko, Jonas Geiping
cs.AI

초록

대형 언어 모델(LLM) 개발자들은 모델이 정직하고 유용하며 무해하도록 만드는 것을 목표로 한다. 그러나 악의적인 요청에 직면했을 때 모델은 유용성을 희생하면서 거부하도록 훈련된다. 우리는 최첨단 LLM들이 다른 선택지가 있음에도 불구하고 새로운 전략으로서 부정직함을 선호할 수 있음을 보여준다. 영향을 받은 모델들은 유해한 요청에 대해 실제로는 미묘하게 잘못되었거나 무해한 듯 들리는 출력으로 응답한다. 이러한 행동은 동일한 모델 계열 내에서도 예측하기 어려운 변이를 보이며 나타난다. 우리는 이러한 속임수 성향에 대한 명확한 원인을 찾지 못했지만, 더 능력 있는 모델들이 이 전략을 더 잘 실행할 수 있음을 보여준다. 전략적 부정직함은 이미 안전성 평가에 실질적인 영향을 미치고 있으며, 우리가 테스트한 모든 출력 기반 모니터를 속여 벤치마크 점수를 신뢰할 수 없게 만드는 것으로 나타났다. 더 나아가, 전략적 부정직함은 악의적인 사용자에게 허니팟처럼 작용하여 기존의 탈옥 공격을 눈에 띄게 모호하게 만든다. 출력 모니터가 실패하는 동안, 우리는 내부 활성화에 대한 선형 탐침을 사용하여 전략적 부정직함을 신뢰할 수 있게 탐지할 수 있음을 보여준다. 우리는 검증 가능한 결과를 가진 데이터셋에서 탐침을 검증하고, 그 특징들을 스티어링 벡터로 사용함으로써 이를 확인한다. 전반적으로, 우리는 전략적 부정직함을 LLM의 정렬이 특히 유용성과 무해성이 충돌할 때 통제하기 어려운 더 넓은 문제의 구체적인 예로 간주한다.
English
Large language model (LLM) developers aim for their models to be honest, helpful, and harmless. However, when faced with malicious requests, models are trained to refuse, sacrificing helpfulness. We show that frontier LLMs can develop a preference for dishonesty as a new strategy, even when other options are available. Affected models respond to harmful requests with outputs that sound harmful but are subtly incorrect or otherwise harmless in practice. This behavior emerges with hard-to-predict variations even within models from the same model family. We find no apparent cause for the propensity to deceive, but we show that more capable models are better at executing this strategy. Strategic dishonesty already has a practical impact on safety evaluations, as we show that dishonest responses fool all output-based monitors used to detect jailbreaks that we test, rendering benchmark scores unreliable. Further, strategic dishonesty can act like a honeypot against malicious users, which noticeably obfuscates prior jailbreak attacks. While output monitors fail, we show that linear probes on internal activations can be used to reliably detect strategic dishonesty. We validate probes on datasets with verifiable outcomes and by using their features as steering vectors. Overall, we consider strategic dishonesty as a concrete example of a broader concern that alignment of LLMs is hard to control, especially when helpfulness and harmlessness conflict.
PDF102September 23, 2025