SynthID-Image: 인터넷 규모의 이미지 워터마킹
SynthID-Image: Image watermarking at internet scale
October 10, 2025
저자: Sven Gowal, Rudy Bunel, Florian Stimberg, David Stutz, Guillermo Ortiz-Jimenez, Christina Kouridi, Mel Vecerik, Jamie Hayes, Sylvestre-Alvise Rebuffi, Paul Bernard, Chris Gamble, Miklós Z. Horváth, Fabian Kaczmarczyck, Alex Kaskasoli, Aleksandar Petrov, Ilia Shumailov, Meghana Thotakuri, Olivia Wiles, Jessica Yung, Zahra Ahmed, Victor Martin, Simon Rosen, Christopher Savčak, Armin Senoner, Nidhi Vyas, Pushmeet Kohli
cs.AI
초록
본 논문에서는 AI 생성 이미지에 대한 보이지 않는 워터마킹을 위한 딥러닝 기반 시스템인 SynthID-Image를 소개한다. 이 논문은 인터넷 규모에서 이러한 시스템을 배포하기 위한 기술적 요구사항, 위협 모델, 그리고 실질적인 도전 과제를 문서화하며, 효과성, 충실도, 견고성, 보안이라는 핵심 요구사항을 다룬다. SynthID-Image는 Google의 서비스 전반에 걸쳐 100억 개 이상의 이미지와 비디오 프레임에 워터마킹을 적용하는 데 사용되었으며, 해당 검증 서비스는 신뢰할 수 있는 테스터들에게 제공되고 있다. 완결성을 위해, 파트너십을 통해 이용 가능한 외부 모델 변형인 SynthID-O에 대한 실험적 평가를 제시한다. SynthID-O를 문헌에 소개된 다른 사후 워터마킹 방법들과 비교 평가하여, 시각적 품질과 일반적인 이미지 변형에 대한 견고성 측면에서 최첨단 성능을 입증한다. 이 연구는 시각적 미디어를 중심으로 진행되었으나, 배포, 제약 조건, 위협 모델링에 대한 결론은 오디오를 포함한 다른 형태의 미디어에도 일반화될 수 있다. 본 논문은 딥러닝 기반 미디어 출처 추적 시스템의 대규모 배포에 대한 포괄적인 문서를 제공한다.
English
We introduce SynthID-Image, a deep learning-based system for invisibly
watermarking AI-generated imagery. This paper documents the technical
desiderata, threat models, and practical challenges of deploying such a system
at internet scale, addressing key requirements of effectiveness, fidelity,
robustness, and security. SynthID-Image has been used to watermark over ten
billion images and video frames across Google's services and its corresponding
verification service is available to trusted testers. For completeness, we
present an experimental evaluation of an external model variant, SynthID-O,
which is available through partnerships. We benchmark SynthID-O against other
post-hoc watermarking methods from the literature, demonstrating
state-of-the-art performance in both visual quality and robustness to common
image perturbations. While this work centers on visual media, the conclusions
on deployment, constraints, and threat modeling generalize to other modalities,
including audio. This paper provides a comprehensive documentation for the
large-scale deployment of deep learning-based media provenance systems.