AnyV2V: Uma Estrutura Plug-and-Play para Qualquer Tarefa de Edição de Vídeo para Vídeo
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
March 21, 2024
Autores: Max Ku, Cong Wei, Weiming Ren, Huan Yang, Wenhu Chen
cs.AI
Resumo
A edição de vídeo para vídeo envolve a edição de um vídeo de origem juntamente com controles adicionais (como prompts de texto, assuntos ou estilos) para gerar um novo vídeo que esteja alinhado com o vídeo de origem e os controles fornecidos. Métodos tradicionais têm sido limitados a certos tipos de edição, restringindo sua capacidade de atender à ampla gama de demandas dos usuários. Neste artigo, apresentamos o AnyV2V, uma nova estrutura livre de treinamento projetada para simplificar a edição de vídeo em duas etapas principais: (1) empregar um modelo de edição de imagem pré-existente (por exemplo, InstructPix2Pix, InstantID, etc.) para modificar o primeiro quadro, (2) utilizar um modelo existente de geração de imagem para vídeo (por exemplo, I2VGen-XL) para inversão DDIM e injeção de características. Na primeira etapa, o AnyV2V pode integrar qualquer ferramenta de edição de imagem existente para suportar uma ampla variedade de tarefas de edição de vídeo. Além dos métodos tradicionais de edição baseados em prompts, o AnyV2V também pode suportar novas tarefas de edição de vídeo, incluindo transferência de estilo baseada em referência, edição orientada por assunto e manipulação de identidade, que eram inatingíveis por métodos anteriores. Na segunda etapa, o AnyV2V pode integrar qualquer modelo de imagem para vídeo existente para realizar a inversão DDIM e a injeção de características intermediárias, mantendo a consistência de aparência e movimento com o vídeo de origem. Na edição baseada em prompts, mostramos que o AnyV2V pode superar a melhor abordagem anterior em 35% no alinhamento de prompts e 25% na preferência humana. Nas três novas tarefas, mostramos que o AnyV2V também alcança uma alta taxa de sucesso. Acreditamos que o AnyV2V continuará a prosperar devido à sua capacidade de integrar de forma contínua os métodos de edição de imagem em rápida evolução. Essa compatibilidade pode ajudar o AnyV2V a aumentar sua versatilidade para atender a diversas demandas dos usuários.
English
Video-to-video editing involves editing a source video along with additional
control (such as text prompts, subjects, or styles) to generate a new video
that aligns with the source video and the provided control. Traditional methods
have been constrained to certain editing types, limiting their ability to meet
the wide range of user demands. In this paper, we introduce AnyV2V, a novel
training-free framework designed to simplify video editing into two primary
steps: (1) employing an off-the-shelf image editing model (e.g.
InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an
existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion
and feature injection. In the first stage, AnyV2V can plug in any existing
image editing tools to support an extensive array of video editing tasks.
Beyond the traditional prompt-based editing methods, AnyV2V also can support
novel video editing tasks, including reference-based style transfer,
subject-driven editing, and identity manipulation, which were unattainable by
previous methods. In the second stage, AnyV2V can plug in any existing
image-to-video models to perform DDIM inversion and intermediate feature
injection to maintain the appearance and motion consistency with the source
video. On the prompt-based editing, we show that AnyV2V can outperform the
previous best approach by 35\% on prompt alignment, and 25\% on human
preference. On the three novel tasks, we show that AnyV2V also achieves a high
success rate. We believe AnyV2V will continue to thrive due to its ability to
seamlessly integrate the fast-evolving image editing methods. Such
compatibility can help AnyV2V to increase its versatility to cater to diverse
user demands.