Является ли многоязычное водяное знакирование LLM действительно многоязычным? Простое решение с обратным переводом
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
Авторы: Asim Mohamed, Martin Gubri
cs.AI
Аннотация
Многоязычное водяное знакование (watermarking) направлено на обеспечение отслеживаемости выходных данных крупных языковых моделей (LLM) на разных языках, однако существующие методы пока не справляются с этой задачей. Несмотря на заявления о кросс-лингвистической устойчивости, они оцениваются только на языках с большим объемом ресурсов. Мы демонстрируем, что существующие методы многоязычного водяного знакования не являются по-настоящему многоязычными: они теряют устойчивость при атаках с переводом на языки со средним и низким объемом ресурсов. Мы связываем эту проблему с семантической кластеризацией, которая терпит неудачу, когда словарь токенизатора содержит слишком мало полноценных слов для данного языка. Для решения этой проблемы мы представляем STEAM — метод обнаружения, основанный на обратном переводе, который восстанавливает силу водяного знака, утраченную при переводе. STEAM совместим с любыми методами водяного знакования, устойчив к различным токенизаторам и языкам, неинвазивен и легко расширяем на новые языки. С улучшением в среднем на +0,19 AUC и +40% TPR@1% на 17 языках, STEAM предлагает простой и надежный путь к более справедливому водяному знакованию для разнообразных языков.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.