Il watermarking multilingue per LLM è veramente multilingue? Una semplice soluzione di retro-traduzione
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
Autori: Asim Mohamed, Martin Gubri
cs.AI
Abstract
Il watermarking multilingue mira a rendere tracciabili gli output dei modelli linguistici di grandi dimensioni (LLM) attraverso le lingue, ma i metodi attuali non sono ancora all'altezza. Nonostante le affermazioni di robustezza cross-linguale, essi vengono valutati solo su lingue ad alta risorsa. Dimostriamo che i metodi esistenti di watermarking multilingue non sono veramente multilingue: non riescono a mantenere la robustezza sotto attacchi di traduzione in lingue a media e bassa risorsa. Attribuiamo questo fallimento al clustering semantico, che non funziona quando il vocabolario del tokenizer contiene troppo pochi token di parole intere per una determinata lingua. Per affrontare questo problema, introduciamo STEAM, un metodo di rilevamento basato sulla retro-traduzione che ripristina la forza del watermark persa attraverso la traduzione. STEAM è compatibile con qualsiasi metodo di watermarking, robusto su diversi tokenizer e lingue, non invasivo e facilmente estendibile a nuove lingue. Con guadagni medi di +0,19 AUC e +40%p TPR@1% su 17 lingue, STEAM offre un percorso semplice e robusto verso un watermarking più equo attraverso lingue diverse.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.