오픈웨이트 모델의 체계적 취약점을 프리필 공격으로 드러내기
Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks
February 16, 2026
저자: Lukas Struppek, Adam Gleave, Kellin Pelrine
cs.AI
초록
대규모 언어 모델의 능력이 지속적으로 발전함에 따라 이들의 악용 가능성도 함께 증가하고 있습니다. 클로즈드소스 모델은 일반적으로 외부 방어 수단에 의존하는 반면, 오픈웨이트 모델은 유해한 행동을 완화하기 위해 주로 내부 안전장치에 의존해야 합니다. 기존 레드팀링 연구는 주로 입력 기반 재킹과 매개변수 수준 조작에 집중해 왔습니다. 그러나 오픈웨이트 모델은 생성 시작 전에 공격자가 초기 응답 토큰을 미리 정의할 수 있는 프리필 기능을 기본적으로 지원합니다. 이러한 공격 경로의 잠재력에도 불구하고, 이에 대한 체계적인 연구는 거의 이루어지지 않았습니다. 본 연구는 현재까지 가장 광범위한 프리필 공격 실증 연구를 제시하며, 여러 모델 계열과 최신 오픈웨이트 모델을 대상으로 20개 이상의 기존 및 신규 공격 전략을 평가합니다. 연구 결과에 따르면, 프리필 공격은 현존하는 모든 주요 오픈웨이트 모델에 대해 지속적으로 효과적인 것으로 나타나, 배치에 중대한 영향을 미치는 중요하면서도 이전까지 충분히 탐구되지 않은 취약점이 존재함을 보여줍니다. 일부 대규모 추론 모델은 일반적인 프리필 공격에 대해 어느 정도 견고성을 보이지만, 특정 모델에 맞춤화된 전략에는 여전히 취약합니다. 본 연구 결과는 오픈웨이트 LLM 개발자가 프리필 공격에 대한 방어 수단을 우선적으로 고려해야 할 필요성을 강조합니다.
English
As the capabilities of large language models continue to advance, so does their potential for misuse. While closed-source models typically rely on external defenses, open-weight models must primarily depend on internal safeguards to mitigate harmful behavior. Prior red-teaming research has largely focused on input-based jailbreaking and parameter-level manipulations. However, open-weight models also natively support prefilling, which allows an attacker to predefine initial response tokens before generation begins. Despite its potential, this attack vector has received little systematic attention. We present the largest empirical study to date of prefill attacks, evaluating over 20 existing and novel strategies across multiple model families and state-of-the-art open-weight models. Our results show that prefill attacks are consistently effective against all major contemporary open-weight models, revealing a critical and previously underexplored vulnerability with significant implications for deployment. While certain large reasoning models exhibit some robustness against generic prefilling, they remain vulnerable to tailored, model-specific strategies. Our findings underscore the urgent need for model developers to prioritize defenses against prefill attacks in open-weight LLMs.