Hail to the Thief: Explorando Ataques e Defesas no GRPO Descentralizado
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
November 12, 2025
Autores: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
Resumo
O Group Relative Policy Optimization (GRPO) tem demonstrado grande utilidade no pós-treinamento de Grandes Modelos de Linguagem (LLMs). No GRPO, os prompts são respondidos pelo modelo e, através de aprendizagem por reforço, as conclusões preferidas são aprendidas. Devido ao pequeno volume de comunicação, o GRPO é intrinsecamente adequado para treinamento descentralizado, uma vez que os prompts podem ser respondidos concorrentemente por múltiplos nós e depois trocados na forma de strings. Neste trabalho, apresentamos o primeiro ataque adversarial em GRPO descentralizado. Demonstramos que partes maliciosas podem envenenar tais sistemas através da injeção de tokens maliciosos arbitrários em modelos benignos, tanto em ataques fora de contexto quanto em contexto. Utilizando exemplos empíricos de tarefas de matemática e programação, mostramos que ataques adversariais podem facilmente envenenar os nós benignos, poluindo seu pós-treinamento local de LLM, atingindo taxas de sucesso de ataque de até 100% em apenas 50 iterações. Propomos duas formas de defender contra esses ataques, dependendo se todos os usuários treinam o mesmo modelo ou modelos diferentes. Mostramos que essas defesas podem atingir taxas de parada de até 100%, tornando o ataque impossível.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.