Huldigung dem Dieb: Untersuchung von Angriffen und Verteidigungsstrategien in dezentralen GRPO-Systemen

papers.abstract

Group Relative Policy Optimization (GRPO) hat sich als äußerst nützlich für das Post-Training von Large Language Models (LLMs) erwiesen. Bei GRPO werden Prompts vom Modell beantwortet, und durch Reinforcement Learning werden bevorzugte Completion-Vervollständigungen erlernt. Aufgrund des geringen Kommunikationsaufkommens eignet sich GRPO von Natur aus für dezentralisiertes Training, da die Prompts gleichzeitig von mehreren Knoten beantwortet und dann in Form von Zeichenketten ausgetauscht werden können. In dieser Arbeit präsentieren wir den ersten adversariellen Angriff auf dezentralisiertes GRPO. Wir zeigen, dass böswillige Parteien solche Systeme vergiften können, indem sie in Out-of-Context- und In-Context-Angriffen beliebige schädliche Tokens in harmlose Modelle einschleusen. Anhand empirischer Beispiele aus den Bereichen Mathematik und Programmierung zeigen wir, dass adversarielle Angriffe problemlos die benignen Knoten vergiften und ihr lokales LLM-Post-Training verseuchen können, wobei Angriffserfolgsraten von bis zu 100 % in nur 50 Iterationen erreicht werden. Wir schlagen zwei Verteidigungsstrategien gegen diese Angriffe vor, abhängig davon, ob alle Benutzer dasselbe Modell oder unterschiedliche Modelle trainieren. Wir zeigen, dass diese Verteidigungsmaßnahmen Stoppraten von bis zu 100 % erreichen können, was den Angriff unmöglich macht.

English

Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.

Huldigung dem Dieb: Untersuchung von Angriffen und Verteidigungsstrategien in dezentralen GRPO-Systemen

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

papers.abstract

Support