보안 유지! 질문 응답에서 간접 공격에 대항한 대규모 언어 모델 컨텍스트 내 보안 정책 보존 벤치마킹
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
May 21, 2025
저자: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI
초록
대규모 언어 모델(LLMs)이 기업 및 정부와 같은 민감한 분야에 점점 더 많이 배포됨에 따라, 이러한 모델들이 문맥 내에서 사용자 정의 보안 정책을 준수하도록 보장하는 것이 중요해졌습니다. 특히 정보 비공개와 관련하여 이러한 보장은 매우 중요합니다. 기존의 LLM 연구는 일반적인 안전성과 사회적으로 민감한 데이터에 초점을 맞추었지만, 공격에 대한 문맥적 보안 보존을 평가하는 대규모 벤치마크는 여전히 부족한 상태입니다. 이를 해결하기 위해, 우리는 질문 응답에서 LLM의 문맥적 비공개 정책 준수를 평가하는 새로운 대규모 벤치마크 데이터셋인 CoPriva를 소개합니다. 현실적인 문맥에서 도출된 이 데이터셋은 명시적인 정책과 금지된 정보를 찾는 직접적이고 도전적인 간접 공격으로 설계된 쿼리를 포함합니다. 우리는 이 벤치마크에서 10개의 LLM을 평가하고, 많은 모델이 사용자 정의 정책을 위반하고 민감한 정보를 유출하는 중요한 취약점을 발견했습니다. 이러한 실패는 특히 간접 공격에 대해 심각하며, 민감한 애플리케이션을 위한 현재 LLM 안전 정렬의 중요한 격차를 강조합니다. 우리의 분석은 모델이 쿼리에 대한 정답을 식별할 수는 있지만, 생성 과정에서 정책 제약을 통합하는 데 어려움을 겪는다는 것을 보여줍니다. 반면, 명시적으로 요청받을 경우 출력을 수정하는 부분적인 능력을 보입니다. 우리의 연구 결과는 문맥적 보안을 보장하기 위한 더 강력한 방법의 시급한 필요성을 강조합니다.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive
domains such as enterprise and government, ensuring that they adhere to
user-defined security policies within context is critical-especially with
respect to information non-disclosure. While prior LLM studies have focused on
general safety and socially sensitive data, large-scale benchmarks for
contextual security preservation against attacks remain lacking. To address
this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating
LLM adherence to contextual non-disclosure policies in question answering.
Derived from realistic contexts, our dataset includes explicit policies and
queries designed as direct and challenging indirect attacks seeking prohibited
information. We evaluate 10 LLMs on our benchmark and reveal a significant
vulnerability: many models violate user-defined policies and leak sensitive
information. This failure is particularly severe against indirect attacks,
highlighting a critical gap in current LLM safety alignment for sensitive
applications. Our analysis reveals that while models can often identify the
correct answer to a query, they struggle to incorporate policy constraints
during generation. In contrast, they exhibit a partial ability to revise
outputs when explicitly prompted. Our findings underscore the urgent need for
more robust methods to guarantee contextual security.