Safe-Sora: Veilige Tekst-naar-Video Generatie via Grafische Watermerken
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Auteurs: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Samenvatting
De explosieve groei van generatieve videomodellen heeft de vraag naar betrouwbare auteursrechtbescherming van AI-gegenereerde content versterkt. Ondanks de populariteit ervan in beeldgeneratie, blijft onzichtbare generatieve watermerktechnologie grotendeels onontgonnen in videogeneratie. Om deze kloof te overbruggen, stellen we Safe-Sora voor, het eerste raamwerk dat grafische watermerken direct in het videogeneratieproces inbedt. Gemotiveerd door de observatie dat de prestaties van watermerken nauw verbonden zijn met de visuele gelijkenis tussen het watermerk en de covercontent, introduceren we een hiërarchisch grof-naar-fijn adaptief matchingmechanisme. Specifiek wordt het watermerkbeeld opgedeeld in patches, die elk worden toegewezen aan de visueel meest vergelijkbare videoframe, en verder gelokaliseerd naar de optimale ruimtelijke regio voor naadloze inbedding. Om spatiotemporele fusie van watermerkpatches over videoframes mogelijk te maken, ontwikkelen we een 3D wavelet-transform-versterkte Mamba-architectuur met een nieuwe spatiotemporele lokale scanningsstrategie, die effectief langeafstandsafhankelijkheden modelleert tijdens het inbedden en ophalen van watermerken. Voor zover wij weten, is dit de eerste poging om state space-modellen toe te passen op watermerken, wat nieuwe mogelijkheden opent voor efficiënte en robuuste watermerkbescherming. Uitgebreide experimenten tonen aan dat Safe-Sora state-of-the-art prestaties bereikt op het gebied van videokwaliteit, watermerkgetrouwheid en robuustheid, wat grotendeels te danken is aan onze voorstellen. We zullen onze code vrijgeven na publicatie.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.