Safe-Sora: Sichere Text-zu-Video-Generierung durch grafische Wasserzeichen
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Autoren: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Zusammenfassung
Das explosive Wachstum generativer Videomodelle hat die Nachfrage nach zuverlässigem Urheberrechtsschutz für KI-generierte Inhalte verstärkt. Trotz seiner Beliebtheit in der Bildsynthese bleibt unsichtbares generatives Wasserzeichen weitgehend unerforscht in der Videogenerierung. Um diese Lücke zu schließen, schlagen wir Safe-Sora vor, das erste Framework, das grafische Wasserzeichen direkt in den Videogenerierungsprozess einbettet. Motiviert durch die Beobachtung, dass die Leistung von Wasserzeichen eng mit der visuellen Ähnlichkeit zwischen dem Wasserzeichen und dem Cover-Inhalt verbunden ist, führen wir einen hierarchischen, grob- bis fein-abgestimmten adaptiven Matching-Mechanismus ein. Konkret wird das Wasserzeichenbild in Patches unterteilt, die jeweils dem visuell ähnlichsten Videobild zugeordnet werden, und weiter auf die optimale räumliche Region für eine nahtlose Einbettung lokalisiert. Um die raumzeitliche Fusion von Wasserzeichenpatches über Videobilder hinweg zu ermöglichen, entwickeln wir eine 3D-Wavelet-Transform-verstärkte Mamba-Architektur mit einer neuartigen raumzeitlichen lokalen Scannstrategie, die effektiv langreichweitige Abhängigkeiten während der Wasserzeicheneinbettung und -rückgewinnung modelliert. Nach bestem Wissen ist dies der erste Versuch, Zustandsraummodelle auf Wasserzeichen anzuwenden, was neue Wege für effizienten und robusten Wasserzeichenschutz eröffnet. Umfangreiche Experimente zeigen, dass Safe-Sora in Bezug auf Videoqualität, Wasserzeichenfidelität und Robustheit state-of-the-art Leistungen erzielt, was maßgeblich auf unsere Vorschläge zurückzuführen ist. Wir werden unseren Code nach der Veröffentlichung freigeben.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.Summary
AI-Generated Summary