Хвала узурпатору: Исследование атак и защит в децентрализованных GRPO
Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
November 12, 2025
Авторы: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen
cs.AI
Аннотация
Метод оптимизации относительной групповой политики (Group Relative Policy Optimization, GRPO) продемонстрировал высокую эффективность при дообучении больших языковых моделей (LLM). В GRPO модель генерирует ответы на промпты, а с помощью обучения с подкреплением усваивает предпочитаемые завершения. Благодаря малому объему коммуникации GRPO изначально подходит для децентрализованного обучения, поскольку промпты могут обрабатываться параллельно на нескольких узлах, а затем обмениваться в виде строк. В данной работе мы представляем первую атаку на децентрализованный GRPO. Мы показываем, что злоумышленники могут отравлять такие системы, внедряя произвольные вредоносные токены в добросовестные модели, как в атаках вне контекста, так и в рамках контекста. На эмпирических примерах математических и программистских задач мы демонстрируем, что adversarial-атаки могут легко отравить добросовестные узлы, нарушив их локальное дообучение LLM, достигая успеха атаки до 100% всего за 50 итераций. Мы предлагаем два способа защиты от этих атак, в зависимости от того, обучают ли все пользователи одну и ту же модель или разные модели. Мы показываем, что эти защиты могут достигать показателей остановки атаки до 100%, делая её невозможной.
English
Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.