**분산형 GRPO에서의 공격과 방어 탐구**
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
November 12, 2025
저자: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
초록
그룹 상대 정책 최적화(GRPO)는 대규모 언어 모델(LLM)의 사후 훈련에서 높은 활용도를 보여주고 있습니다. GRPO에서는 모델이 프롬프트에 답변을 생성하고, 강화 학습을 통해 선호되는 완성문을 학습합니다. 통신량이 적기 때문에 프롬프트를 여러 노드에서 동시에 처리한 후 문자열 형태로 교환할 수 있어 GRPO는 분산 훈련에 본질적으로 적합합니다. 본 연구에서는 분산 GRPO 환경에서의 최초 적대적 공격을 제시합니다. 악의적인 참여자가 문맥 외 공격과 문맥 내 공격 모두에서 양성 모델에 임의의 악성 토큰을 주입하여 시스템을 오염시킬 수 있음을 입증합니다. 수학 및 코딩 작업에 대한 실증적 사례를 통해 적대적 공격이 양성 노드를 쉽게 오염시켜 해당 노드의 로컬 LLM 사후 훈련을 훼손할 수 있으며, 최소 50회 반복만으로 공격 성공률이 최대 100%에 도달함을 보여줍니다. 우리는 모든 사용자가 동일한 모델을 훈련하는지 또는 서로 다른 모델을 훈련하는지에 따라 두 가지 방어 방식을 제안합니다. 이러한 방어 방식이 최대 100%의 차단률을 달성하여 공격을 불가능하게 만들 수 있음을 입증합니다.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.