Le tatouage des LLM multilingues est-il vraiment multilingue ? Une solution simple par rétro-traduction
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
papers.authors: Asim Mohamed, Martin Gubri
cs.AI
papers.abstract
Le tatouage multilingue vise à rendre les sorties des grands modèles de langage (LLM) traçables à travers les langues, mais les méthodes actuelles restent insuffisantes. Malgré les affirmations de robustesse interlingue, elles ne sont évaluées que sur des langues à ressources élevées. Nous montrons que les méthodes existantes de tatouage multilingue ne sont pas véritablement multilingues : elles échouent à rester robustes face aux attaques par traduction dans les langues à ressources moyennes et faibles. Nous attribuons cet échec au regroupement sémantique, qui ne fonctionne pas lorsque le vocabulaire du tokenizer contient trop peu de tokens de mots complets pour une langue donnée. Pour remédier à cela, nous introduisons STEAM, une méthode de détection basée sur la rétro-traduction qui restaure la force du tatouage perdue lors de la traduction. STEAM est compatible avec toute méthode de tatouage, robuste face à différents tokenizers et langues, non invasive et facilement extensible à de nouvelles langues. Avec des gains moyens de +0,19 AUC et +40%p TPR@1% sur 17 langues, STEAM offre une voie simple et robuste vers un tatouage plus équitable à travers diverses langues.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.