VideoPainter: Интерактивное восстановление и редактирование видео любой длины с контекстным управлением по принципу "подключи и работай"

Аннотация

Видеоинпейнтинг, направленный на восстановление поврежденного видеоконтента, достиг значительного прогресса. Несмотря на эти успехи, существующие методы, будь то распространение пикселей из незамаскированных областей через оптический поток и априорные данные о рецептивных полях, или временное расширение моделей для инпейнтинга изображений, сталкиваются с трудностями в генерации полностью замаскированных объектов или балансировке конкурирующих задач сохранения контекста фона и генерации переднего плана в одной модели. Чтобы устранить эти ограничения, мы предлагаем новую двухпоточную парадигму VideoPainter, которая включает эффективный контекстный кодировщик (составляющий всего 6% параметров базовой модели) для обработки замаскированных видео и внедрения контекстных подсказок фона, учитывающих базовую модель, в любую предварительно обученную видео DiT, создавая семантически согласованный контент в режиме "plug-and-play". Такое архитектурное разделение значительно снижает сложность обучения модели, одновременно обеспечивая тонкую интеграцию важного контекста фона. Мы также представляем новую технику повторной выборки идентификаторов целевой области, которая позволяет выполнять инпейнтинг видео любой длины, значительно повышая практическую применимость. Кроме того, мы создаем масштабируемый конвейер данных, использующий современные модели понимания визуальной информации, представляя VPData и VPBench для облегчения обучения и оценки инпейнтинга на основе сегментации, — это самый большой набор данных и бенчмарк для видеоинпейнтинга на сегодняшний день, содержащий более 390 тысяч разнообразных клипов. Используя инпейнтинг как основу конвейера, мы также исследуем приложения, включая редактирование видео и генерацию пар данных для редактирования видео, демонстрируя конкурентоспособную производительность и значительный практический потенциал. Многочисленные эксперименты подтверждают превосходство VideoPainter в инпейнтинге и редактировании видео любой длины по восьми ключевым метрикам, включая качество видео, сохранение замаскированных областей и текстуальную согласованность.

English

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model's learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter's superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

VideoPainter: Интерактивное восстановление и редактирование видео любой длины с контекстным управлением по принципу "подключи и работай"

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

Аннотация

Support