多言語LLM透かしは真に多言語か?簡易な逆翻訳による解決策
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
著者: Asim Mohamed, Martin Gubri
cs.AI
要旨
多言語透かしは、大規模言語モデル(LLM)の出力を言語間で追跡可能にすることを目指しているが、現在の手法はまだ不十分である。クロスリンガルな堅牢性が主張されているにもかかわらず、それらは高リソース言語でのみ評価されている。我々は、既存の多言語透かし手法が真に多言語的ではないことを示す:それらは中・低リソース言語における翻訳攻撃下で堅牢性を維持できない。この失敗は、特定の言語に対してトークナイザーの語彙に含まれる完全語トークンが少ない場合に失敗する意味的クラスタリングに起因する。これを解決するため、我々はSTEAMを導入する。これは、翻訳によって失われた透かしの強度を復元する逆翻訳ベースの検出手法である。STEAMは任意の透かし手法と互換性があり、異なるトークナイザーや言語にわたって堅牢で、非侵襲的であり、新しい言語への拡張も容易である。17言語において平均+0.19 AUCおよび+40%p TPR@1%の向上を達成し、STEAMは多様な言語間で公平な透かしを実現するためのシンプルで堅牢な道筋を提供する。
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.