LivePhoto: Animação de Imagens Reais com Controle de Movimento Orientado por Texto
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
Autores: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
Resumo
Apesar dos recentes avanços na geração de texto para vídeo, os estudos existentes geralmente negligenciam o fato de que apenas os conteúdos espaciais, e não os movimentos temporais, nos vídeos sintetizados estão sob o controle do texto. Diante desse desafio, este trabalho apresenta um sistema prático, chamado LivePhoto, que permite aos usuários animar uma imagem de seu interesse com descrições textuais. Primeiro, estabelecemos uma base sólida que ajuda um gerador de texto para imagem bem treinado (ou seja, Stable Diffusion) a receber uma imagem como entrada adicional. Em seguida, equipamos o gerador aprimorado com um módulo de movimento para modelagem temporal e propomos um pipeline de treinamento cuidadosamente projetado para melhor vincular textos e movimentos. Em particular, considerando os fatos de que (1) o texto só pode descrever movimentos de forma aproximada (por exemplo, sem considerar a velocidade do movimento) e (2) o texto pode incluir tanto descrições de conteúdo quanto de movimento, introduzimos um módulo de estimativa de intensidade de movimento, bem como um módulo de re-ponderação de texto para reduzir a ambiguidade do mapeamento de texto para movimento. Evidências empíricas sugerem que nossa abordagem é capaz de decodificar bem instruções textuais relacionadas a movimento em vídeos, como ações, movimentos de câmera ou até mesmo conjurar novos conteúdos do nada (por exemplo, despejar água em um copo vazio). Curiosamente, graças ao mecanismo de aprendizado de intensidade proposto, nosso sistema oferece aos usuários um sinal de controle adicional (ou seja, a intensidade do movimento) além do texto para personalização de vídeos.
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.