¿Es realmente multilingüe la marca de agua en LLM multilingües? Una solución simple mediante retro-traducción

Resumen

La marca de agua multilingüe tiene como objetivo hacer que los resultados de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) sean rastreables a través de idiomas, aunque los métodos actuales aún no logran este objetivo. A pesar de las afirmaciones de robustez interlingüística, estos métodos solo se evalúan en idiomas de alto recurso. Demostramos que los métodos existentes de marca de agua multilingüe no son verdaderamente multilingües: no logran mantener su robustez frente a ataques de traducción en idiomas de recursos medios y bajos. Rastreamos este fallo al agrupamiento semántico, que falla cuando el vocabulario del tokenizador contiene muy pocos tokens de palabras completas para un idioma dado. Para abordar este problema, presentamos STEAM, un método de detección basado en retro-traducción que restaura la fuerza de la marca de agua perdida durante la traducción. STEAM es compatible con cualquier método de marca de agua, robusto frente a diferentes tokenizadores e idiomas, no invasivo y fácilmente extensible a nuevos idiomas. Con mejoras promedio de +0.19 AUC y +40%p TPR@1% en 17 idiomas, STEAM ofrece un camino simple y robusto hacia una marca de agua más justa en diversos idiomas.

English

Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.