El razonamiento introduce nuevos ataques de envenenamiento, pero también los hace más complejos.

Resumen

Las primeras investigaciones sobre ataques de envenenamiento de datos contra Modelos de Lenguaje a Gran Escala (LLMs) demostraron la facilidad con la que se podían inyectar puertas traseras. Los LLMs más recientes incorporan razonamiento paso a paso, ampliando la superficie de ataque para incluir la cadena de pensamiento intermedia (CoT, por sus siglas en inglés) y su característica inherente de descomponer problemas en subproblemas. Utilizando estos vectores para un envenenamiento más sigiloso, introducimos el "envenenamiento de razonamiento descompuesto", en el que el atacante modifica únicamente la ruta de razonamiento, dejando limpios los prompts y las respuestas finales, y distribuye el activador entre múltiples componentes individualmente inofensivos. Curiosamente, aunque sigue siendo posible inyectar estos venenos descompuestos, activarlos de manera confiable para alterar las respuestas finales (en lugar de solo el CoT) resulta sorprendentemente difícil. Esta dificultad surge porque los modelos a menudo pueden recuperarse de las puertas traseras que se activan dentro de sus procesos de pensamiento. En última instancia, parece que una forma emergente de robustez contra puertas traseras se origina en las capacidades de razonamiento de estos LLMs avanzados, así como en la separación arquitectónica entre el razonamiento y la generación de respuestas finales.

English

Early research into data poisoning attacks against Large Language Models (LLMs) demonstrated the ease with which backdoors could be injected. More recent LLMs add step-by-step reasoning, expanding the attack surface to include the intermediate chain-of-thought (CoT) and its inherent trait of decomposing problems into subproblems. Using these vectors for more stealthy poisoning, we introduce ``decomposed reasoning poison'', in which the attacker modifies only the reasoning path, leaving prompts and final answers clean, and splits the trigger across multiple, individually harmless components. Fascinatingly, while it remains possible to inject these decomposed poisons, reliably activating them to change final answers (rather than just the CoT) is surprisingly difficult. This difficulty arises because the models can often recover from backdoors that are activated within their thought processes. Ultimately, it appears that an emergent form of backdoor robustness is originating from the reasoning capabilities of these advanced LLMs, as well as from the architectural separation between reasoning and final answer generation.

El razonamiento introduce nuevos ataques de envenenamiento, pero también los hace más complejos.

Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

Resumen

Support