ChatPaper.aiChatPaper

Salve al Ladrón: Exploración de Ataques y Defensas en GRPO Descentralizado

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

November 12, 2025
Autores: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI

Resumen

La Optimización de Políticas Relativas a Grupos (GRPO) ha demostrado una gran utilidad en el post-entrenamiento de Modelos de Lenguaje a Gran Escala (LLMs). En GRPO, los modelos responden a instrucciones (prompts) y, mediante aprendizaje por refuerzo, aprenden las finalizaciones preferidas. Debido al pequeño volumen de comunicación, GRPO es intrínsecamente adecuado para el entrenamiento descentralizado, ya que las instrucciones pueden ser respondidas concurrentemente por múltiples nodos y luego intercambiadas en forma de cadenas de texto. En este trabajo, presentamos el primer ataque adversarial en GRPO descentralizado. Demostramos que partes maliciosas pueden envenenar dichos sistemas inyectando tokens maliciosos arbitrarios en modelos benignos, tanto en ataques fuera de contexto (out-of-context) como en contexto (in-context). Utilizando ejemplos empíricos de tareas de matemáticas y programación, mostramos que los ataques adversariales pueden envenenar fácilmente los nodos benignos, contaminando su post-entrenamiento local del LLM y alcanzando tasas de éxito de ataque de hasta el 100% en tan solo 50 iteraciones. Proponemos dos formas de defenderse de estos ataques, dependiendo de si todos los usuarios entrenan el mismo modelo o modelos diferentes. Demostramos que estas defensas pueden alcanzar tasas de detención de hasta el 100%, haciendo que el ataque sea imposible.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.
PDF263December 1, 2025