A Marcação de Água em LLMs Multilíngues é Verdadeiramente Multilíngue? Uma Solução Simples de Retro-tradução

Resumo

A marcação d'água multilingue visa tornar as saídas de modelos de linguagem de grande escala (LLMs) rastreáveis entre idiomas, mas os métodos atuais ainda não atingem esse objetivo. Apesar das alegações de robustez translinguística, eles são avaliados apenas em idiomas de alta disponibilidade de recursos. Demonstramos que os métodos existentes de marcação d'água multilingue não são verdadeiramente multilingues: eles falham em manter a robustez sob ataques de tradução em idiomas de recursos médios e baixos. Rastreamos essa falha ao agrupamento semântico, que falha quando o vocabulário do tokenizador contém poucos tokens de palavras completas para um determinado idioma. Para resolver isso, introduzimos o STEAM, um método de detecção baseado em retro-tradução que restaura a força da marcação d'água perdida durante a tradução. O STEAM é compatível com qualquer método de marcação d'água, robusto em diferentes tokenizadores e idiomas, não invasivo e facilmente extensível a novos idiomas. Com ganhos médios de +0,19 AUC e +40%p TPR@1% em 17 idiomas, o STEAM oferece um caminho simples e robusto para uma marcação d'água mais justa em diversos idiomas.

English

Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.

A Marcação de Água em LLMs Multilíngues é Verdadeiramente Multilíngue? Uma Solução Simples de Retro-tradução

Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

Resumo

Support