Ere aan de Dief: Aanvallen en Verdedigingen in Gedecentraliseerde GRPO Onderzocht
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
November 12, 2025
Auteurs: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
Samenvatting
Group Relative Policy Optimization (GRPO) heeft een grote bruikbaarheid aangetoond bij het na-trainen van Large Language Models (LLM's). In GRPO worden prompts door het model beantwoord en worden geprefereerde voltooiingen aangeleerd via reinforcement learning. Vanwege het kleine communicatievolume is GRPO inherent geschikt voor gedecentraliseerde training, aangezien de prompts gelijktijdig door meerdere nodes kunnen worden beantwoord en vervolgens kunnen worden uitgewisseld in de vorm van strings. In dit werk presenteren we de eerste adversariële aanval in gedecentraliseerde GRPO. We demonstreren dat kwaadwillende partijen dergelijke systemen kunnen vergiftigen door willekeurige kwaadaardige tokens te injecteren in goedaardige modellen, zowel in out-of-context als in-context aanvallen. Aan de hand van empirische voorbeelden van wiskundige en programmeertaken tonen we aan dat adversariële aanvallen eenvoudig de goedaardige nodes kunnen vergiftigen, waardoor hun lokale LLM na-training wordt vervuild, met een aanvalssuccespercentage van tot 100% in slechts 50 iteraties. We stellen twee manieren voor om zich tegen deze aanvallen te verdedigen, afhankelijk van of alle gebruikers hetzelfde model of verschillende modellen trainen. We tonen aan dat deze verdedigingsmaatregelen een stoppercentage van tot 100% kunnen bereiken, waardoor de aanval onmogelijk wordt.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.