El razonamiento introduce nuevos ataques de envenenamiento, pero también los hace más complejos.
Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated
September 6, 2025
Autores: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal
cs.AI
Resumen
Las primeras investigaciones sobre ataques de envenenamiento de datos contra Modelos de Lenguaje a Gran Escala (LLMs) demostraron la facilidad con la que se podían inyectar puertas traseras. Los LLMs más recientes incorporan razonamiento paso a paso, ampliando la superficie de ataque para incluir la cadena de pensamiento intermedia (CoT, por sus siglas en inglés) y su característica inherente de descomponer problemas en subproblemas. Utilizando estos vectores para un envenenamiento más sigiloso, introducimos el "envenenamiento de razonamiento descompuesto", en el que el atacante modifica únicamente la ruta de razonamiento, dejando limpios los prompts y las respuestas finales, y distribuye el activador entre múltiples componentes individualmente inofensivos.
Curiosamente, aunque sigue siendo posible inyectar estos venenos descompuestos, activarlos de manera confiable para alterar las respuestas finales (en lugar de solo el CoT) resulta sorprendentemente difícil. Esta dificultad surge porque los modelos a menudo pueden recuperarse de las puertas traseras que se activan dentro de sus procesos de pensamiento. En última instancia, parece que una forma emergente de robustez contra puertas traseras se origina en las capacidades de razonamiento de estos LLMs avanzados, así como en la separación arquitectónica entre el razonamiento y la generación de respuestas finales.
English
Early research into data poisoning attacks against Large Language Models
(LLMs) demonstrated the ease with which backdoors could be injected. More
recent LLMs add step-by-step reasoning, expanding the attack surface to include
the intermediate chain-of-thought (CoT) and its inherent trait of decomposing
problems into subproblems. Using these vectors for more stealthy poisoning, we
introduce ``decomposed reasoning poison'', in which the attacker modifies only
the reasoning path, leaving prompts and final answers clean, and splits the
trigger across multiple, individually harmless components.
Fascinatingly, while it remains possible to inject these decomposed poisons,
reliably activating them to change final answers (rather than just the CoT) is
surprisingly difficult. This difficulty arises because the models can often
recover from backdoors that are activated within their thought processes.
Ultimately, it appears that an emergent form of backdoor robustness is
originating from the reasoning capabilities of these advanced LLMs, as well as
from the architectural separation between reasoning and final answer
generation.