VideoSwap: Troca Personalizada de Assuntos em Vídeo com Correspondência Semântica Interativa por Pontos
VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence
December 4, 2023
Autores: Yuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao, Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang
cs.AI
Resumo
A edição de vídeo baseada em difusão atualmente concentra-se principalmente na edição com preservação de estrutura, utilizando várias correspondências densas para garantir consistência temporal e alinhamento de movimento. No entanto, essas abordagens frequentemente se mostram ineficazes quando a edição desejada envolve uma mudança de forma. Para abordar a edição de vídeo com mudança de forma, exploramos neste trabalho a substituição personalizada de objetos em vídeos, onde buscamos substituir o objeto principal em um vídeo de origem por um objeto de destino com uma identidade distinta e potencialmente uma forma diferente. Em contraste com métodos anteriores que dependem de correspondências densas, introduzimos o framework VideoSwap, que explora correspondências de pontos semânticos, inspirado pela nossa observação de que apenas um pequeno número de pontos semânticos é necessário para alinhar a trajetória de movimento do objeto e modificar sua forma. Também introduzimos várias interações de pontos pelo usuário (\eg, remover pontos e arrastar pontos) para abordar diferentes correspondências de pontos semânticos. Experimentos extensivos demonstram resultados de substituição de objetos em vídeos de última geração em uma variedade de vídeos do mundo real.
English
Current diffusion-based video editing primarily focuses on
structure-preserved editing by utilizing various dense correspondences to
ensure temporal consistency and motion alignment. However, these approaches are
often ineffective when the target edit involves a shape change. To embark on
video editing with shape change, we explore customized video subject swapping
in this work, where we aim to replace the main subject in a source video with a
target subject having a distinct identity and potentially different shape. In
contrast to previous methods that rely on dense correspondences, we introduce
the VideoSwap framework that exploits semantic point correspondences, inspired
by our observation that only a small number of semantic points are necessary to
align the subject's motion trajectory and modify its shape. We also introduce
various user-point interactions (\eg, removing points and dragging points) to
address various semantic point correspondence. Extensive experiments
demonstrate state-of-the-art video subject swapping results across a variety of
real-world videos.