다국어 LLM 워터마킹은 정말 다국어인가? 간단한 역번역 솔루션
Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
October 20, 2025
저자: Asim Mohamed, Martin Gubri
cs.AI
초록
다국어 워터마킹은 대형 언어 모델(LLM)의 출력을 다양한 언어 간에 추적 가능하게 만드는 것을 목표로 하지만, 현재의 방법들은 여전히 한계를 보입니다. 교차 언어 강건성을 주장하지만, 이는 고자원 언어에서만 평가되고 있습니다. 우리는 기존의 다국어 워터마킹 방법들이 진정한 다국어가 아님을 보여줍니다: 중간 및 저자원 언어에서 번역 공격 하에 강건성을 유지하지 못합니다. 이 실패의 원인은 토크나이저 어휘가 특정 언어에 대해 충분한 전체 단어 토큰을 포함하지 않을 때 발생하는 의미적 클러스터링 실패로 추적됩니다. 이를 해결하기 위해, 우리는 STEAM을 소개합니다. 이는 번역을 통해 손실된 워터마킹 강도를 복원하는 역번역 기반 탐지 방법입니다. STEAM은 어떤 워터마킹 방법과도 호환되며, 다양한 토크나이저와 언어에 걸쳐 강건하고, 비침습적이며, 새로운 언어로 쉽게 확장 가능합니다. 17개 언어에서 평균 +0.19 AUC와 +40%p TPR@1%의 성능 향상을 보이며, STEAM은 다양한 언어에 걸쳐 공정한 워터마킹을 위한 간단하고 강건한 접근 방식을 제공합니다.
English
Multilingual watermarking aims to make large language model (LLM) outputs
traceable across languages, yet current methods still fall short. Despite
claims of cross-lingual robustness, they are evaluated only on high-resource
languages. We show that existing multilingual watermarking methods are not
truly multilingual: they fail to remain robust under translation attacks in
medium- and low-resource languages. We trace this failure to semantic
clustering, which fails when the tokenizer vocabulary contains too few
full-word tokens for a given language. To address this, we introduce STEAM, a
back-translation-based detection method that restores watermark strength lost
through translation. STEAM is compatible with any watermarking method, robust
across different tokenizers and languages, non-invasive, and easily extendable
to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17
languages, STEAM provides a simple and robust path toward fairer watermarking
across diverse languages.