ChatPaper.aiChatPaper

Safe-Sora: Generación Segura de Videos a partir de Texto mediante Marcas de Agua Gráficas

Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

May 19, 2025
Autores: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI

Resumen

El crecimiento explosivo de los modelos generativos de video ha amplificado la demanda de una preservación confiable de los derechos de autor en el contenido generado por IA. A pesar de su popularidad en la síntesis de imágenes, la marca de agua generativa invisible sigue siendo en gran medida poco explorada en la generación de video. Para abordar esta brecha, proponemos Safe-Sora, el primer marco para incrustar marcas de agua gráficas directamente en el proceso de generación de video. Motivados por la observación de que el rendimiento de la marca de agua está estrechamente relacionado con la similitud visual entre la marca de agua y el contenido de cobertura, introducimos un mecanismo jerárquico de adaptación de lo grueso a lo fino. Específicamente, la imagen de la marca de agua se divide en parches, cada uno asignado al fotograma de video visualmente más similar, y se localiza aún más en la región espacial óptima para una incrustación perfecta. Para permitir la fusión espacio-temporal de los parches de la marca de agua a través de los fotogramas de video, desarrollamos una arquitectura Mamba mejorada con transformada wavelet 3D y una novedosa estrategia de escaneo local espacio-temporal, modelando eficazmente las dependencias de largo alcance durante la incrustación y recuperación de la marca de agua. Hasta donde sabemos, este es el primer intento de aplicar modelos de espacio de estado a la marca de agua, abriendo nuevas vías para una protección eficiente y robusta de la marca de agua. Experimentos extensos demuestran que Safe-Sora alcanza un rendimiento de vanguardia en términos de calidad de video, fidelidad de la marca de agua y robustez, lo cual se atribuye en gran medida a nuestras propuestas. Publicaremos nuestro código tras la publicación.
English
The explosive growth of generative video models has amplified the demand for reliable copyright preservation of AI-generated content. Despite its popularity in image synthesis, invisible generative watermarking remains largely underexplored in video generation. To address this gap, we propose Safe-Sora, the first framework to embed graphical watermarks directly into the video generation process. Motivated by the observation that watermarking performance is closely tied to the visual similarity between the watermark and cover content, we introduce a hierarchical coarse-to-fine adaptive matching mechanism. Specifically, the watermark image is divided into patches, each assigned to the most visually similar video frame, and further localized to the optimal spatial region for seamless embedding. To enable spatiotemporal fusion of watermark patches across video frames, we develop a 3D wavelet transform-enhanced Mamba architecture with a novel spatiotemporal local scanning strategy, effectively modeling long-range dependencies during watermark embedding and retrieval. To the best of our knowledge, this is the first attempt to apply state space models to watermarking, opening new avenues for efficient and robust watermark protection. Extensive experiments demonstrate that Safe-Sora achieves state-of-the-art performance in terms of video quality, watermark fidelity, and robustness, which is largely attributed to our proposals. We will release our code upon publication.

Summary

AI-Generated Summary

PDF42May 29, 2025