Safe-Sora: Безопасная генерация видео из текста с использованием графического водяного знака
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
May 19, 2025
Авторы: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
cs.AI
Аннотация
Экспоненциальный рост генеративных моделей для видео усилил потребность в надежной защите авторских прав для контента, созданного с помощью ИИ. Несмотря на популярность невидимого генеративного водяного знака в синтезе изображений, эта технология остается малоизученной в области генерации видео. Чтобы восполнить этот пробел, мы предлагаем Safe-Sora — первую платформу для встраивания графических водяных знаков непосредственно в процесс генерации видео. Вдохновленные наблюдением, что эффективность водяного знака тесно связана с визуальным сходством между ним и основным контентом, мы вводим иерархический механизм адаптивного сопоставления от грубого к точному. В частности, изображение водяного знака разделяется на патчи, каждый из которых назначается наиболее визуально похожему кадру видео, а затем локализуется в оптимальной пространственной области для бесшовного встраивания. Для обеспечения пространственно-временного слияния патчей водяного знака между кадрами видео мы разработали архитектуру Mamba, усиленную 3D-вейвлет-преобразованием, с новой стратегией локального сканирования в пространстве и времени, эффективно моделирующей долгосрочные зависимости в процессе встраивания и извлечения водяного знака. Насколько нам известно, это первая попытка применения моделей пространства состояний к водяным знакам, открывающая новые пути для эффективной и устойчивой защиты. Многочисленные эксперименты демонстрируют, что Safe-Sora достигает передовых показателей по качеству видео, точности водяного знака и устойчивости, что во многом обусловлено нашими предложениями. Мы опубликуем наш код после выхода статьи.
English
The explosive growth of generative video models has amplified the demand for
reliable copyright preservation of AI-generated content. Despite its popularity
in image synthesis, invisible generative watermarking remains largely
underexplored in video generation. To address this gap, we propose Safe-Sora,
the first framework to embed graphical watermarks directly into the video
generation process. Motivated by the observation that watermarking performance
is closely tied to the visual similarity between the watermark and cover
content, we introduce a hierarchical coarse-to-fine adaptive matching
mechanism. Specifically, the watermark image is divided into patches, each
assigned to the most visually similar video frame, and further localized to the
optimal spatial region for seamless embedding. To enable spatiotemporal fusion
of watermark patches across video frames, we develop a 3D wavelet
transform-enhanced Mamba architecture with a novel spatiotemporal local
scanning strategy, effectively modeling long-range dependencies during
watermark embedding and retrieval. To the best of our knowledge, this is the
first attempt to apply state space models to watermarking, opening new avenues
for efficient and robust watermark protection. Extensive experiments
demonstrate that Safe-Sora achieves state-of-the-art performance in terms of
video quality, watermark fidelity, and robustness, which is largely attributed
to our proposals. We will release our code upon publication.Summary
AI-Generated Summary