Il ragionamento introduce nuovi attacchi di avvelenamento ma li rende più complessi
Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
September 6, 2025
Autori: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal
cs.AI
Abstract
Le prime ricerche sugli attacchi di avvelenamento dei dati contro i Large Language Models (LLM) hanno dimostrato la facilità con cui è possibile iniettare backdoor. I modelli LLM più recenti incorporano un ragionamento passo-passo, ampliando la superficie di attacco per includere la catena di pensiero (CoT) intermedia e la sua caratteristica intrinseca di scomporre i problemi in sottoproblemi. Utilizzando questi vettori per un avvelenamento più subdolo, introduciamo il "veleno del ragionamento scomposto", in cui l'attaccante modifica solo il percorso di ragionamento, lasciando intatti i prompt e le risposte finali, e suddivide il trigger in più componenti individualmente innocue.
Curiosamente, sebbene sia ancora possibile iniettare questi veleni scomposti, attivarli in modo affidabile per modificare le risposte finali (piuttosto che solo la CoT) è sorprendentemente difficile. Questa difficoltà deriva dal fatto che i modelli possono spesso recuperare da backdoor attivati all'interno dei loro processi di pensiero. In definitiva, sembra che una forma emergente di robustezza ai backdoor stia originando dalle capacità di ragionamento di questi LLM avanzati, nonché dalla separazione architetturale tra il ragionamento e la generazione delle risposte finali.
English
Early research into data poisoning attacks against Large Language Models
(LLMs) demonstrated the ease with which backdoors could be injected. More
recent LLMs add step-by-step reasoning, expanding the attack surface to include
the intermediate chain-of-thought (CoT) and its inherent trait of decomposing
problems into subproblems. Using these vectors for more stealthy poisoning, we
introduce ``decomposed reasoning poison'', in which the attacker modifies only
the reasoning path, leaving prompts and final answers clean, and splits the
trigger across multiple, individually harmless components.
Fascinatingly, while it remains possible to inject these decomposed poisons,
reliably activating them to change final answers (rather than just the CoT) is
surprisingly difficult. This difficulty arises because the models can often
recover from backdoors that are activated within their thought processes.
Ultimately, it appears that an emergent form of backdoor robustness is
originating from the reasoning capabilities of these advanced LLMs, as well as
from the architectural separation between reasoning and final answer
generation.