StableV2V: Estabilización de la Consistencia de Forma en la Edición de Video a Video
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing
November 17, 2024
Autores: Chang Liu, Rui Li, Kaidong Zhang, Yunwei Lan, Dong Liu
cs.AI
Resumen
Los avances recientes en la inteligencia artificial generativa han promovido significativamente la creación y edición de contenido, donde estudios predominantes amplían aún más este emocionante progreso a la edición de video. Al hacerlo, estos estudios transfieren principalmente los patrones de movimiento inherentes de los videos fuente a los editados, donde a menudo se observan resultados con una consistencia inferior a las indicaciones del usuario, debido a la falta de alineaciones particulares entre los movimientos entregados y los contenidos editados. Para abordar esta limitación, presentamos en este documento un método de edición de video consistente en forma, denominado StableV2V. Nuestro método descompone todo el proceso de edición en varios procedimientos secuenciales, donde edita el primer fotograma del video, establece luego una alineación entre los movimientos entregados y las indicaciones del usuario, y finalmente propaga los contenidos editados a todos los demás fotogramas basándose en dicha alineación. Además, creamos un banco de pruebas, denominado DAVIS-Edit, para una evaluación exhaustiva de la edición de video, considerando varios tipos de indicaciones y dificultades. Los resultados experimentales y análisis ilustran el rendimiento sobresaliente, la consistencia visual y la eficiencia de inferencia de nuestro método en comparación con los estudios existentes de vanguardia.
English
Recent advancements of generative AI have significantly promoted content
creation and editing, where prevailing studies further extend this exciting
progress to video editing. In doing so, these studies mainly transfer the
inherent motion patterns from the source videos to the edited ones, where
results with inferior consistency to user prompts are often observed, due to
the lack of particular alignments between the delivered motions and edited
contents. To address this limitation, we present a shape-consistent video
editing method, namely StableV2V, in this paper. Our method decomposes the
entire editing pipeline into several sequential procedures, where it edits the
first video frame, then establishes an alignment between the delivered motions
and user prompts, and eventually propagates the edited contents to all other
frames based on such alignment. Furthermore, we curate a testing benchmark,
namely DAVIS-Edit, for a comprehensive evaluation of video editing, considering
various types of prompts and difficulties. Experimental results and analyses
illustrate the outperforming performance, visual consistency, and inference
efficiency of our method compared to existing state-of-the-art studies.Summary
AI-Generated Summary