Safe-Sora: Generazione Sicura di Video da Testo tramite Filigrana Grafica
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Autori: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Abstract
La crescita esplosiva dei modelli generativi di video ha amplificato la richiesta di una tutela affidabile del copyright per i contenuti generati dall'IA. Nonostante la sua popolarità nella sintesi di immagini, il watermarking generativo invisibile rimane ampiamente inesplorato nella generazione di video. Per colmare questa lacuna, proponiamo Safe-Sora, il primo framework per incorporare watermark grafici direttamente nel processo di generazione video. Motivati dall'osservazione che le prestazioni del watermarking sono strettamente legate alla somiglianza visiva tra il watermark e il contenuto di copertina, introduciamo un meccanismo di adattamento gerarchico dal generale al dettaglio. Nello specifico, l'immagine del watermark viene suddivisa in patch, ciascuna assegnata al fotogramma video visivamente più simile, e ulteriormente localizzata nella regione spaziale ottimale per un'incorporazione senza soluzione di continuità. Per abilitare la fusione spazio-temporale delle patch di watermark tra i fotogrammi video, sviluppiamo un'architettura Mappa potenziata da trasformata wavelet 3D con una nuova strategia di scansione locale spazio-temporale, modellando efficacemente le dipendenze a lungo raggio durante l'incorporazione e il recupero del watermark. Per quanto ne sappiamo, questo è il primo tentativo di applicare modelli a stati spazio al watermarking, aprendo nuove strade per una protezione efficiente e robusta dei watermark. Esperimenti estensivi dimostrano che Safe-Sora raggiunge prestazioni all'avanguardia in termini di qualità video, fedeltà del watermark e robustezza, attribuibili in gran parte alle nostre proposte. Rilasceremo il nostro codice alla pubblicazione.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.