¿Es realmente multilingüe la marca de agua en LLM multilingües? Una solución simple mediante retro-traducción
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
Autores: Asim Mohamed, Martin Gubri
cs.AI
Resumen
La marca de agua multilingüe tiene como objetivo hacer que los resultados de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) sean rastreables a través de idiomas, aunque los métodos actuales aún no logran este objetivo. A pesar de las afirmaciones de robustez interlingüística, estos métodos solo se evalúan en idiomas de alto recurso. Demostramos que los métodos existentes de marca de agua multilingüe no son verdaderamente multilingües: no logran mantener su robustez frente a ataques de traducción en idiomas de recursos medios y bajos. Rastreamos este fallo al agrupamiento semántico, que falla cuando el vocabulario del tokenizador contiene muy pocos tokens de palabras completas para un idioma dado. Para abordar este problema, presentamos STEAM, un método de detección basado en retro-traducción que restaura la fuerza de la marca de agua perdida durante la traducción. STEAM es compatible con cualquier método de marca de agua, robusto frente a diferentes tokenizadores e idiomas, no invasivo y fácilmente extensible a nuevos idiomas. Con mejoras promedio de +0.19 AUC y +40%p TPR@1% en 17 idiomas, STEAM ofrece un camino simple y robusto hacia una marca de agua más justa en diversos idiomas.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.