ChatPaper.aiChatPaper

EstávelV2V: Estabilizando a Consistência de Forma na Edição de Vídeo para Vídeo

StableV2V: Stablizing Shape Consistency in Video-to-Video Editing

November 17, 2024
Autores: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI

Resumo

Os avanços recentes da IA generativa têm promovido significativamente a criação e edição de conteúdo, onde estudos predominantes estendem ainda mais esse progresso empolgante para a edição de vídeos. Ao fazer isso, esses estudos transferem principalmente os padrões de movimento inerentes dos vídeos de origem para os editados, nos quais resultados com consistência inferior em relação às instruções do usuário são frequentemente observados, devido à falta de alinhamentos específicos entre os movimentos entregues e os conteúdos editados. Para abordar essa limitação, apresentamos neste artigo um método de edição de vídeo com consistência de forma, denominado StableV2V. Nosso método decompõe todo o pipeline de edição em vários procedimentos sequenciais, onde ele edita o primeiro quadro do vídeo, estabelece um alinhamento entre os movimentos entregues e as instruções do usuário, e eventualmente propaga os conteúdos editados para todos os outros quadros com base nesse alinhamento. Além disso, criamos um benchmark de teste, denominado DAVIS-Edit, para uma avaliação abrangente da edição de vídeo, considerando vários tipos de instruções e dificuldades. Resultados experimentais e análises ilustram o desempenho superior, consistência visual e eficiência de inferência de nosso método em comparação com estudos existentes de última geração.
English
Recent advancements of generative AI have significantly promoted content creation and editing, where prevailing studies further extend this exciting progress to video editing. In doing so, these studies mainly transfer the inherent motion patterns from the source videos to the edited ones, where results with inferior consistency to user prompts are often observed, due to the lack of particular alignments between the delivered motions and edited contents. To address this limitation, we present a shape-consistent video editing method, namely StableV2V, in this paper. Our method decomposes the entire editing pipeline into several sequential procedures, where it edits the first video frame, then establishes an alignment between the delivered motions and user prompts, and eventually propagates the edited contents to all other frames based on such alignment. Furthermore, we curate a testing benchmark, namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering various types of prompts and difficulties. Experimental results and analyses illustrate the outperforming performance, visual consistency, and inference efficiency of our method compared to existing state-of-the-art studies.

Summary

AI-Generated Summary

PDF115November 19, 2024