Attaques par injection de distracteurs sur les modèles de raisonnement à grande échelle : Caractérisation et défense

papers.abstract

Les récents progrès des grands modèles de raisonnement (LRMs) ont permis des performances remarquables sur des tâches complexes telles que les mathématiques et la programmation, grâce à la génération de longues traces de Chaîne de Pensée (CoT). Dans cet article, nous identifions et analysons systématiquement une vulnérabilité critique que nous nommons distraction du raisonnement, où les LRMs sont détournés de leur objectif principal par des tâches complexes mais non pertinentes, insérées de manière malveillante dans l'invite. À travers une étude approfondie sur divers modèles et benchmarks, nous montrons que même les LRMs les plus avancés y sont fortement sensibles, les distracteurs injectés réduisant la précision des tâches jusqu'à 60 %. Nous révélons en outre que certaines techniques d'alignement peuvent amplifier cette faiblesse et que les modèles peuvent manifester une conformité secrète, suivant des instructions adverses cachées dans leur raisonnement tout en les masquant dans la sortie finale. Pour atténuer ces risques, nous proposons une défense basée sur l'entraînement qui combine un Fine-Tuning Supervisé (SFT) et un Apprentissage par Renforcement (RL) sur des données adverses synthétiques, améliorant la robustesse de plus de 50 points face à des attaques de distracteurs complexes. Nos résultats établissent la distraction du raisonnement comme une menace distincte et urgente pour la fiabilité des LRMs et offrent une étape pratique vers des systèmes de raisonnement plus sûrs et plus dignes de confiance.

English

Recent advances in large reasoning models (LRMs) have enabled remarkable performance on complex tasks such as mathematics and coding by generating long Chain-of-Thought (CoT) traces. In this paper, we identify and systematically analyze a critical vulnerability we term reasoning distraction, where LRMs are diverted from their primary objective by irrelevant yet complex tasks maliciously embedded in the prompt. Through a comprehensive study across diverse models and benchmarks, we show that even state-of-the-art LRMs are highly susceptible, with injected distractors reducing task accuracy by up to 60%. We further reveal that certain alignment techniques can amplify this weakness and that models may exhibit covert compliance, following hidden adversarial instructions in reasoning while concealing them in the final output. To mitigate these risks, we propose a training-based defense that combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on synthetic adversarial data, improving robustness by over 50 points on challenging distractor attacks. Our findings establish reasoning distraction as a distinct and urgent threat to LRM reliability and provide a practical step toward safer and more trustworthy reasoning systems.

Attaques par injection de distracteurs sur les modèles de raisonnement à grande échelle : Caractérisation et défense

Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

papers.abstract

Support