고정 디코딩: 모든 언어 모델의 저작권 위험을 검증 가능하게 줄이는 방법
Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model
February 6, 2026
저자: Jacqueline He, Jonathan Hayase, Wen-tau Yih, Sewoong Oh, Luke Zettlemoyer, Pang Wei Koh
cs.AI
초록
현대 언어 모델(LM)은 학습 데이터의 일부를 암기하여 원문을 그대로 생성하는 경향이 있습니다. 기반 자료가 민감하거나 저작권으로 보호되는 경우, 이러한 재생산은 창작자의 동의 및 보상 문제와 개발자의 규정 준수 위험을 야기합니다. 본 논문은 원문 복사를 억제하기 위한 플러그 앤 플레이 방식의 추론 시점 방법인 Anchored Decoding을 제안합니다: 이 방법은 혼합 라이선스 데이터로 학습된 위험 LM으로부터의 디코딩을 가능하게 하며, 허용적으로 학습된 안전 LM에 대한 생성 범위를 제한합니다. Anchored Decoding은 사용자가 선택한 정보 예산을 생성 궤적에 따라 적응적으로 할당하고 단계별 제약을 적용하여 시퀀스 수준의 보장을 제공함으로써 조정 가능한 위험-유용성 트레이드오프를 가능하게 합니다. Anchored Decoding을 실질적으로 유용하게 만들기 위해, 우리는 새롭게 허용적으로 학습된 안전 모델(TinyComma 1.8B)과 ByteSampler 프레임워크(Hayase et al., 2025)를 통한 어휘 간 융합을 가능하게 하는 바이트 수준 변형 방법인 Anchored_{Byte} Decoding을 소개합니다. 우리는 저작권 위험과 유용성에 대한 장문 평가에서 6개의 모델 쌍에 걸쳐 본 방법을 평가합니다. Anchored 및 Anchored_{Byte} Decoding은 새로운 파레토 최적선을 정의하며, 원본에 가까운 유창성과 사실성을 유지하면서 위험 기준선과 안전 참조 모델 간의 측정 가능한 복사 격차(6개 복사 메트릭 평균)를 최대 75% 제거합니다. 이는 적절한 수준의 추론 오버헤드에서achieved됩니다.
English
Modern language models (LMs) tend to memorize portions of their training data and emit verbatim spans. When the underlying sources are sensitive or copyright-protected, such reproduction raises issues of consent and compensation for creators and compliance risks for developers. We propose Anchored Decoding, a plug-and-play inference-time method for suppressing verbatim copying: it enables decoding from any risky LM trained on mixed-license data by keeping generation in bounded proximity to a permissively trained safe LM. Anchored Decoding adaptively allocates a user-chosen information budget over the generation trajectory and enforces per-step constraints that yield a sequence-level guarantee, enabling a tunable risk-utility trade-off. To make Anchored Decoding practically useful, we introduce a new permissively trained safe model (TinyComma 1.8B), as well as Anchored_{Byte} Decoding, a byte-level variant of our method that enables cross-vocabulary fusion via the ByteSampler framework (Hayase et al., 2025). We evaluate our methods across six model pairs on long-form evaluations of copyright risk and utility. Anchored and Anchored_{Byte} Decoding define a new Pareto frontier, preserving near-original fluency and factuality while eliminating up to 75% of the measurable copying gap (averaged over six copying metrics) between the risky baseline and a safe reference, at a modest inference overhead.