Safe-Sora : Génération sécurisée de vidéos à partir de texte via le tatouage graphique
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Auteurs: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Résumé
L'explosion des modèles génératifs de vidéo a amplifié la demande pour une préservation fiable des droits d'auteur des contenus générés par l'IA. Bien que populaire dans la synthèse d'images, le tatouage génératif invisible reste largement inexploré dans la génération de vidéos. Pour combler cette lacune, nous proposons Safe-Sora, le premier cadre permettant d'intégrer des tatouages graphiques directement dans le processus de génération vidéo. Motivés par l'observation que la performance du tatouage est étroitement liée à la similarité visuelle entre le tatouage et le contenu de couverture, nous introduisons un mécanisme hiérarchique d'adaptation grossier à fin. Plus précisément, l'image du tatouage est divisée en patches, chacun étant assigné à la frame vidéo la plus visuellement similaire, puis localisé dans la région spatiale optimale pour une intégration fluide. Pour permettre la fusion spatiotemporelle des patches de tatouage à travers les frames vidéo, nous développons une architecture Mamba améliorée par une transformée en ondelettes 3D avec une nouvelle stratégie de balayage local spatiotemporel, modélisant efficacement les dépendances à longue portée lors de l'intégration et de la récupération du tatouage. À notre connaissance, il s'agit de la première tentative d'application des modèles à espace d'état au tatouage, ouvrant de nouvelles voies pour une protection efficace et robuste des tatouages. Des expériences approfondies démontrent que Safe-Sora atteint des performances de pointe en termes de qualité vidéo, fidélité du tatouage et robustesse, attribuées en grande partie à nos propositions. Nous publierons notre code après la publication.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.Summary
AI-Generated Summary