ChatPaper.aiChatPaper

Exposition de la Vulnérabilité Systématique des Modèles à Poids Ouverts aux Attaques par Pré-remplissage

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

February 16, 2026
papers.authors: Lukas Struppek, Adam Gleave, Kellin Pelrine
cs.AI

papers.abstract

Alors que les capacités des grands modèles de langage continuent de progresser, leur potentiel de détournement augmente également. Si les modèles fermés reposent généralement sur des défenses externes, les modèles à poids ouverts doivent principalement compter sur des mécanismes de protection internes pour atténuer les comportements nuisibles. Les recherches antérieures en ingénierie offensive se sont largement concentrées sur les contournements basés sur l'entrée et les manipulations au niveau des paramètres. Cependant, les modèles à poids ouverts prennent également nativement en charge le préremplissage, ce qui permet à un attaquant de prédéfinir les premiers jetons de réponse avant le début de la génération. Malgré son potentiel, ce vecteur d'attaque a reçu peu d'attention systématique. Nous présentons la plus grande étude empirique à ce jour sur les attaques par préremplissage, évaluant plus de 20 stratégies existantes et nouvelles sur plusieurs familles de modèles et les modèles à poids ouverts les plus avancés. Nos résultats montrent que les attaques par préremplissage sont systématiquement efficaces contre tous les principaux modèles à poids ouverts contemporains, révélant une vulnérabilité critique et précédemment sous-explorée, avec des implications significatives pour le déploiement. Bien que certains grands modèles de raisonnement démontrent une certaine robustesse contre le préremplissage générique, ils restent vulnérables à des stratégies spécifiques et adaptées. Nos conclusions soulignent le besoin urgent pour les développeurs de modèles de prioriser les défenses contre les attaques par préremplissage dans les LLM à poids ouverts.
English
As the capabilities of large language models continue to advance, so does their potential for misuse. While closed-source models typically rely on external defenses, open-weight models must primarily depend on internal safeguards to mitigate harmful behavior. Prior red-teaming research has largely focused on input-based jailbreaking and parameter-level manipulations. However, open-weight models also natively support prefilling, which allows an attacker to predefine initial response tokens before generation begins. Despite its potential, this attack vector has received little systematic attention. We present the largest empirical study to date of prefill attacks, evaluating over 20 existing and novel strategies across multiple model families and state-of-the-art open-weight models. Our results show that prefill attacks are consistently effective against all major contemporary open-weight models, revealing a critical and previously underexplored vulnerability with significant implications for deployment. While certain large reasoning models exhibit some robustness against generic prefilling, they remain vulnerable to tailored, model-specific strategies. Our findings underscore the urgent need for model developers to prioritize defenses against prefill attacks in open-weight LLMs.
PDF12February 18, 2026