ChatPaper.aiChatPaper

DiffuEraser: Модель диффузии для видеоинпейнтинга

DiffuEraser: A Diffusion Model for Video Inpainting

January 17, 2025
Авторы: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI

Аннотация

Недавние алгоритмы видеоинпейнтинга интегрируют пиксельную пропагацию на основе потока с генерацией на основе трансформера для использования оптического потока при восстановлении текстур и объектов с использованием информации из соседних кадров, а также для заполнения маскированных областей через визуальные трансформеры. Однако эти подходы часто сталкиваются с размытием и временными несоответствиями при работе с большими масками, что подчеркивает необходимость моделей с улучшенными генеративными возможностями. Недавно диффузионные модели стали заметным методом в области генерации изображений и видео благодаря их впечатляющей производительности. В данной статье мы представляем DiffuEraser, модель видеоинпейнтинга на основе стабильной диффузии, разработанную для заполнения маскированных областей более детально и с более согласованными структурами. Мы внедряем предварительную информацию для обеспечения инициализации и слабой кондиционирования, что помогает смягчить шумные артефакты и подавить галлюцинации. Кроме того, для улучшения временной согласованности во время вывода на длинных последовательностях мы расширяем временные рецептивные поля как у предварительной модели, так и у DiffuEraser, и дополнительно улучшаем согласованность, используя свойство временного сглаживания моделей видеодиффузии. Экспериментальные результаты демонстрируют, что наш метод превосходит современные техники как по полноте содержания, так и по временной согласованности, сохраняя приемлемую эффективность.
English
Recent video inpainting algorithms integrate flow-based pixel propagation with transformer-based generation to leverage optical flow for restoring textures and objects using information from neighboring frames, while completing masked regions through visual Transformers. However, these approaches often encounter blurring and temporal inconsistencies when dealing with large masks, highlighting the need for models with enhanced generative capabilities. Recently, diffusion models have emerged as a prominent technique in image and video generation due to their impressive performance. In this paper, we introduce DiffuEraser, a video inpainting model based on stable diffusion, designed to fill masked regions with greater details and more coherent structures. We incorporate prior information to provide initialization and weak conditioning,which helps mitigate noisy artifacts and suppress hallucinations. Additionally, to improve temporal consistency during long-sequence inference, we expand the temporal receptive fields of both the prior model and DiffuEraser, and further enhance consistency by leveraging the temporal smoothing property of Video Diffusion Models. Experimental results demonstrate that our proposed method outperforms state-of-the-art techniques in both content completeness and temporal consistency while maintaining acceptable efficiency.

Summary

AI-Generated Summary

PDF142January 24, 2025