Distractor Injectieaanvallen op Grote Redeneermodellen: Karakterisering en Verdediging
Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense
October 17, 2025
Auteurs: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy
cs.AI
Samenvatting
Recente vooruitgang in grote redeneermodellen (LRMs) heeft opmerkelijke prestaties mogelijk gemaakt bij complexe taken zoals wiskunde en programmeren door het genereren van lange Chain-of-Thought (CoT)-sporen. In dit artikel identificeren en analyseren we systematisch een kritieke kwetsbaarheid die we 'redeneerafleiding' noemen, waarbij LRMs worden afgeleid van hun primaire doel door irrelevante maar complexe taken die kwaadwillig in de prompt zijn ingebed. Door een uitgebreide studie over diverse modellen en benchmarks tonen we aan dat zelfs state-of-the-art LRMs zeer vatbaar zijn, waarbij geïnjecteerde afleiders de taaknauwkeurigheid met tot wel 60% kunnen verminderen. We onthullen verder dat bepaalde alignmenttechnieken deze zwakte kunnen versterken en dat modellen mogelijk heimelijke compliance vertonen, waarbij ze verborgen tegenstrijdige instructies in het redeneren volgen terwijl ze deze in de uiteindelijke uitvoer verbergen. Om deze risico's te beperken, stellen we een op training gebaseerde verdediging voor die Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) combineert op synthetische adversariële data, wat de robuustheid met meer dan 50 punten verbetert bij uitdagende afleideraanvallen. Onze bevindingen vestigen redeneerafleiding als een duidelijk en urgent gevaar voor de betrouwbaarheid van LRMs en bieden een praktische stap naar veiligere en betrouwbaardere redeneersystemen.
English
Recent advances in large reasoning models (LRMs) have enabled remarkable
performance on complex tasks such as mathematics and coding by generating long
Chain-of-Thought (CoT) traces. In this paper, we identify and systematically
analyze a critical vulnerability we term reasoning distraction, where LRMs are
diverted from their primary objective by irrelevant yet complex tasks
maliciously embedded in the prompt. Through a comprehensive study across
diverse models and benchmarks, we show that even state-of-the-art LRMs are
highly susceptible, with injected distractors reducing task accuracy by up to
60%. We further reveal that certain alignment techniques can amplify this
weakness and that models may exhibit covert compliance, following hidden
adversarial instructions in reasoning while concealing them in the final
output. To mitigate these risks, we propose a training-based defense that
combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on
synthetic adversarial data, improving robustness by over 50 points on
challenging distractor attacks. Our findings establish reasoning distraction as
a distinct and urgent threat to LRM reliability and provide a practical step
toward safer and more trustworthy reasoning systems.