玉座を狙え:分散型GRPOにおける攻撃と防御の探求 (注:GRPOは専門用語のため、適切な日本語訳が不明な場合はカタカナ表記としています)
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
November 12, 2025
著者: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
要旨
Group Relative Policy Optimization(GRPO)は、大規模言語モデル(LLM)の学習後調整において高い有用性を実証している。GRPOでは、プロンプトに対するモデルの応答を強化学習を通じて好ましい完成文へと導く。通信量が少ない特性上、GRPOは分散型学習に本質的に適しており、複数のノードが並行してプロンプトに応答した後、文字列形式で交換することが可能である。本研究では、分散型GRPOにおける初の敵対的攻撃を提示する。悪意のある参加者が、文脈外攻撃と文脈内攻撃の両方において、良性モデルに任意の悪意あるトークンを注入することでシステムを汚染し得ることを実証する。数学課題とコーディング課題を用いた実証例により、敵対的攻撃が良性ノードを容易に汚染し、その局所的なLLM学習後調整を妨害できることを示す。わずか50回の反復で最大100%の攻撃成功率を達成できる。我々は、全ユーザーが同一モデルを学習する場合と異なるモデルを学習する場合に応じた二つの防御手法を提案し、これらの防御により最大100%の攻撃阻止率を達成し、攻撃を不可能にできることを示す。
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.