Is Multilingual LLM-watermarking Echt Meertalig? Een Eenvoudige Back-Translatie Oplossing

Samenvatting

Meertalige watermerktechnieken hebben als doel de uitvoer van grote taalmodelen (LLM's) traceerbaar te maken over verschillende talen heen, maar huidige methoden schieten hierin nog tekort. Ondanks beweringen van robuustheid over talen heen, worden ze alleen geëvalueerd op hoog-resourcetalen. Wij tonen aan dat bestaande meertalige watermerkmethoden niet echt meertalig zijn: ze blijven niet robuust onder vertalingsaanvallen in middel- en laag-resourcetalen. Wij leiden dit falen terug naar semantische clustering, wat mislukt wanneer de tokenizer-vocabulaire te weinig volledige woordtokens bevat voor een bepaalde taal. Om dit aan te pakken, introduceren wij STEAM, een detectiemethode gebaseerd op terugvertaling die de verloren gegane watermerksterkte herstelt na vertaling. STEAM is compatibel met elke watermerkmethode, robuust over verschillende tokenizers en talen heen, niet-invasief en eenvoudig uitbreidbaar naar nieuwe talen. Met gemiddelde verbeteringen van +0,19 AUC en +40%p TPR@1% op 17 talen, biedt STEAM een eenvoudige en robuuste weg naar eerlijkere watermerktechnieken over diverse talen heen.

English

Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.

Is Multilingual LLM-watermarking Echt Meertalig? Een Eenvoudige Back-Translatie Oplossing

Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

Samenvatting

Support