Ist mehrsprachiges LLM-Wasserzeichen wirklich mehrsprachig? Eine einfache Rückübersetzungslösung
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
papers.authors: Asim Mohamed, Martin Gubri
cs.AI
papers.abstract
Mehrsprachiges Watermarking zielt darauf ab, die Ausgaben großer Sprachmodelle (LLMs) sprachübergreifend nachverfolgbar zu machen, doch aktuelle Methoden bleiben hinter diesem Ziel zurück. Trotz Behauptungen zur sprachübergreifenden Robustheit werden sie nur für Hochressourcen-Sprachen evaluiert. Wir zeigen, dass bestehende mehrsprachige Watermarking-Methoden nicht wirklich mehrsprachig sind: Sie bleiben bei Übersetzungsangriffen in Mittel- und Niedrigressourcen-Sprachen nicht robust. Dieses Versagen führen wir auf semantisches Clustering zurück, das scheitert, wenn der Tokenizer-Vokabular zu wenige Vollwort-Tokens für eine bestimmte Sprache enthält. Um dies zu beheben, führen wir STEAM ein, eine auf Rückübersetzung basierende Detektionsmethode, die die durch Übersetzung verlorene Watermark-Stärke wiederherstellt. STEAM ist mit jeder Watermarking-Methode kompatibel, robust gegenüber verschiedenen Tokenizern und Sprachen, nicht-invasiv und leicht auf neue Sprachen erweiterbar. Mit durchschnittlichen Verbesserungen von +0,19 AUC und +40 %p TPR@1 % in 17 Sprachen bietet STEAM einen einfachen und robusten Weg zu fairerem Watermarking über diverse Sprachen hinweg.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.