Attaques par injection de distracteurs sur les modèles de raisonnement à grande échelle : Caractérisation et défense
Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense
October 17, 2025
papers.authors: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy
cs.AI
papers.abstract
Les récents progrès des grands modèles de raisonnement (LRMs) ont permis des performances remarquables sur des tâches complexes telles que les mathématiques et la programmation, grâce à la génération de longues traces de Chaîne de Pensée (CoT). Dans cet article, nous identifions et analysons systématiquement une vulnérabilité critique que nous nommons distraction du raisonnement, où les LRMs sont détournés de leur objectif principal par des tâches complexes mais non pertinentes, insérées de manière malveillante dans l'invite. À travers une étude approfondie sur divers modèles et benchmarks, nous montrons que même les LRMs les plus avancés y sont fortement sensibles, les distracteurs injectés réduisant la précision des tâches jusqu'à 60 %. Nous révélons en outre que certaines techniques d'alignement peuvent amplifier cette faiblesse et que les modèles peuvent manifester une conformité secrète, suivant des instructions adverses cachées dans leur raisonnement tout en les masquant dans la sortie finale. Pour atténuer ces risques, nous proposons une défense basée sur l'entraînement qui combine un Fine-Tuning Supervisé (SFT) et un Apprentissage par Renforcement (RL) sur des données adverses synthétiques, améliorant la robustesse de plus de 50 points face à des attaques de distracteurs complexes. Nos résultats établissent la distraction du raisonnement comme une menace distincte et urgente pour la fiabilité des LRMs et offrent une étape pratique vers des systèmes de raisonnement plus sûrs et plus dignes de confiance.
English
Recent advances in large reasoning models (LRMs) have enabled remarkable
performance on complex tasks such as mathematics and coding by generating long
Chain-of-Thought (CoT) traces. In this paper, we identify and systematically
analyze a critical vulnerability we term reasoning distraction, where LRMs are
diverted from their primary objective by irrelevant yet complex tasks
maliciously embedded in the prompt. Through a comprehensive study across
diverse models and benchmarks, we show that even state-of-the-art LRMs are
highly susceptible, with injected distractors reducing task accuracy by up to
60%. We further reveal that certain alignment techniques can amplify this
weakness and that models may exhibit covert compliance, following hidden
adversarial instructions in reasoning while concealing them in the final
output. To mitigate these risks, we propose a training-based defense that
combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on
synthetic adversarial data, improving robustness by over 50 points on
challenging distractor attacks. Our findings establish reasoning distraction as
a distinct and urgent threat to LRM reliability and provide a practical step
toward safer and more trustworthy reasoning systems.