ChatPaper.aiChatPaper

Salut au Voleur : Exploration des Attaques et Défenses dans les GRPO Décentralisées

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

November 12, 2025
papers.authors: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI

papers.abstract

L'Optimisation de Politique Relative au Groupe (GRPO) a démontré une grande utilité dans le post-entraînement des Grands Modèles de Langage (LLM). Dans GRPO, les invites sont traitées par le modèle et, via l'apprentissage par renforcement, les complétions préférées sont apprises. En raison du faible volume de communication, GRPO est intrinsèquement adapté à l'entraînement décentralisé, car les invites peuvent être traitées simultanément par plusieurs nœuds puis échangées sous forme de chaînes de caractères. Dans ce travail, nous présentons la première attaque antagoniste dans un cadre GRPO décentralisé. Nous démontrons que des parties malveillantes peuvent empoisonner de tels systèmes en injectant des jetons malveillants arbitraires dans des modèles bénins, via des attaques hors-contexte et en contexte. En utilisant des exemples empiriques de tâches mathématiques et de programmation, nous montrons que les attaques adverses peuvent facilement corrompre les nœuds bénins, polluant leur post-entraînement local de LLM, avec des taux de réussite d'attaque atteignant 100 % en seulement 50 itérations. Nous proposons deux méthodes de défense contre ces attaques, selon que tous les utilisateurs entraînent le même modèle ou des modèles différents. Nous montrons que ces défenses peuvent atteindre des taux d'arrêt allant jusqu'à 100 %, rendant l'attaque impossible.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.
PDF263December 1, 2025