Distractor Injectieaanvallen op Grote Redeneermodellen: Karakterisering en Verdediging

Samenvatting

Recente vooruitgang in grote redeneermodellen (LRMs) heeft opmerkelijke prestaties mogelijk gemaakt bij complexe taken zoals wiskunde en programmeren door het genereren van lange Chain-of-Thought (CoT)-sporen. In dit artikel identificeren en analyseren we systematisch een kritieke kwetsbaarheid die we 'redeneerafleiding' noemen, waarbij LRMs worden afgeleid van hun primaire doel door irrelevante maar complexe taken die kwaadwillig in de prompt zijn ingebed. Door een uitgebreide studie over diverse modellen en benchmarks tonen we aan dat zelfs state-of-the-art LRMs zeer vatbaar zijn, waarbij geïnjecteerde afleiders de taaknauwkeurigheid met tot wel 60% kunnen verminderen. We onthullen verder dat bepaalde alignmenttechnieken deze zwakte kunnen versterken en dat modellen mogelijk heimelijke compliance vertonen, waarbij ze verborgen tegenstrijdige instructies in het redeneren volgen terwijl ze deze in de uiteindelijke uitvoer verbergen. Om deze risico's te beperken, stellen we een op training gebaseerde verdediging voor die Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) combineert op synthetische adversariële data, wat de robuustheid met meer dan 50 punten verbetert bij uitdagende afleideraanvallen. Onze bevindingen vestigen redeneerafleiding als een duidelijk en urgent gevaar voor de betrouwbaarheid van LRMs en bieden een praktische stap naar veiligere en betrouwbaardere redeneersystemen.

English

Recent advances in large reasoning models (LRMs) have enabled remarkable performance on complex tasks such as mathematics and coding by generating long Chain-of-Thought (CoT) traces. In this paper, we identify and systematically analyze a critical vulnerability we term reasoning distraction, where LRMs are diverted from their primary objective by irrelevant yet complex tasks maliciously embedded in the prompt. Through a comprehensive study across diverse models and benchmarks, we show that even state-of-the-art LRMs are highly susceptible, with injected distractors reducing task accuracy by up to 60%. We further reveal that certain alignment techniques can amplify this weakness and that models may exhibit covert compliance, following hidden adversarial instructions in reasoning while concealing them in the final output. To mitigate these risks, we propose a training-based defense that combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on synthetic adversarial data, improving robustness by over 50 points on challenging distractor attacks. Our findings establish reasoning distraction as a distinct and urgent threat to LRM reliability and provide a practical step toward safer and more trustworthy reasoning systems.

Distractor Injectieaanvallen op Grote Redeneermodellen: Karakterisering en Verdediging

Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

Samenvatting

Support