Safe-Sora: Geração Segura de Vídeo a partir de Texto via Marca d'Água Gráfica
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Autores: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Resumo
O crescimento explosivo dos modelos generativos de vídeo ampliou a demanda por uma preservação confiável dos direitos autorais de conteúdos gerados por IA. Apesar de sua popularidade na síntese de imagens, a marca d'água generativa invisível permanece amplamente subexplorada na geração de vídeos. Para abordar essa lacuna, propomos o Safe-Sora, o primeiro framework a incorporar marcas d'água gráficas diretamente no processo de geração de vídeo. Motivados pela observação de que o desempenho da marca d'água está intimamente ligado à similaridade visual entre a marca d'água e o conteúdo de cobertura, introduzimos um mecanismo hierárquico de correspondência adaptativa do grosso ao fino. Especificamente, a imagem da marca d'água é dividida em patches, cada um atribuído ao quadro de vídeo visualmente mais semelhante, e posteriormente localizado na região espacial ideal para uma incorporação perfeita. Para permitir a fusão espaço-temporal dos patches de marca d'água entre os quadros de vídeo, desenvolvemos uma arquitetura Mamba aprimorada por transformada wavelet 3D com uma nova estratégia de varredura local espaço-temporal, modelando efetivamente dependências de longo alcance durante a incorporação e recuperação da marca d'água. Até onde sabemos, esta é a primeira tentativa de aplicar modelos de espaço de estado à marca d'água, abrindo novas vias para uma proteção eficiente e robusta de marcas d'água. Experimentos extensivos demonstram que o Safe-Sora alcança desempenho de ponta em termos de qualidade de vídeo, fidelidade da marca d'água e robustez, o que é amplamente atribuído às nossas propostas. Liberaremos nosso código após a publicação.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.