ChatPaper.aiChatPaper

AnyV2V: Un marco plug-and-play para cualquier tarea de edición de video a video

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

March 21, 2024
Autores: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI

Resumen

La edición de video a video implica modificar un video fuente junto con controles adicionales (como indicaciones de texto, sujetos o estilos) para generar un nuevo video que se alinee con el video original y los controles proporcionados. Los métodos tradicionales se han limitado a ciertos tipos de edición, lo que restringe su capacidad para satisfacer la amplia gama de demandas de los usuarios. En este artículo, presentamos AnyV2V, un marco novedoso que no requiere entrenamiento y está diseñado para simplificar la edición de video en dos pasos principales: (1) emplear un modelo de edición de imágenes preexistente (por ejemplo, InstructPix2Pix, InstantID, etc.) para modificar el primer fotograma, y (2) utilizar un modelo existente de generación de imágenes a video (por ejemplo, I2VGen-XL) para la inversión DDIM y la inyección de características. En la primera etapa, AnyV2V puede integrar cualquier herramienta de edición de imágenes existente para respaldar una amplia variedad de tareas de edición de video. Más allá de los métodos tradicionales de edición basados en indicaciones, AnyV2V también puede soportar tareas novedosas de edición de video, como la transferencia de estilo basada en referencias, la edición guiada por sujetos y la manipulación de identidad, que eran inalcanzables con métodos anteriores. En la segunda etapa, AnyV2V puede integrar cualquier modelo existente de imágenes a video para realizar la inversión DDIM y la inyección de características intermedias, manteniendo la consistencia en apariencia y movimiento con el video fuente. En la edición basada en indicaciones, demostramos que AnyV2V supera al mejor enfoque anterior en un 35\% en alineación de indicaciones y en un 25\% en preferencia humana. En las tres tareas novedosas, AnyV2V también logra una alta tasa de éxito. Creemos que AnyV2V continuará prosperando debido a su capacidad para integrar de manera fluida los métodos de edición de imágenes en rápida evolución. Esta compatibilidad puede ayudar a AnyV2V a aumentar su versatilidad para satisfacer diversas demandas de los usuarios.
English
Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.

Summary

AI-Generated Summary

PDF271December 15, 2024