ChatPaper.aiChatPaper

다국어 LLM 워터마킹은 정말 다국어인가? 간단한 역번역 솔루션

Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution

October 20, 2025
저자: Asim Mohamed, Martin Gubri
cs.AI

초록

다국어 워터마킹은 대형 언어 모델(LLM)의 출력을 다양한 언어 간에 추적 가능하게 만드는 것을 목표로 하지만, 현재의 방법들은 여전히 한계를 보입니다. 교차 언어 강건성을 주장하지만, 이는 고자원 언어에서만 평가되고 있습니다. 우리는 기존의 다국어 워터마킹 방법들이 진정한 다국어가 아님을 보여줍니다: 중간 및 저자원 언어에서 번역 공격 하에 강건성을 유지하지 못합니다. 이 실패의 원인은 토크나이저 어휘가 특정 언어에 대해 충분한 전체 단어 토큰을 포함하지 않을 때 발생하는 의미적 클러스터링 실패로 추적됩니다. 이를 해결하기 위해, 우리는 STEAM을 소개합니다. 이는 번역을 통해 손실된 워터마킹 강도를 복원하는 역번역 기반 탐지 방법입니다. STEAM은 어떤 워터마킹 방법과도 호환되며, 다양한 토크나이저와 언어에 걸쳐 강건하고, 비침습적이며, 새로운 언어로 쉽게 확장 가능합니다. 17개 언어에서 평균 +0.19 AUC와 +40%p TPR@1%의 성능 향상을 보이며, STEAM은 다양한 언어에 걸쳐 공정한 워터마킹을 위한 간단하고 강건한 접근 방식을 제공합니다.
English
Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.
PDF162October 22, 2025