ChatPaper.aiChatPaper

LivePhoto: Animación de imágenes reales con control de movimiento guiado por texto

LivePhoto: Real Image Animation with Text-guided Motion Control

December 5, 2023
Autores: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI

Resumen

A pesar de los recientes avances en la generación de texto a video, los estudios existentes suelen pasar por alto el problema de que solo los contenidos espaciales, pero no los movimientos temporales, en los videos sintetizados están bajo el control del texto. Ante este desafío, este trabajo presenta un sistema práctico, denominado LivePhoto, que permite a los usuarios animar una imagen de su interés con descripciones textuales. Primero establecemos una base sólida que ayuda a un generador de texto a imagen bien entrenado (es decir, Stable Diffusion) a tomar una imagen como una entrada adicional. Luego, equipamos el generador mejorado con un módulo de movimiento para el modelado temporal y proponemos una pipeline de entrenamiento cuidadosamente diseñada para vincular mejor los textos y los movimientos. En particular, considerando los hechos de que (1) el texto solo puede describir los movimientos de manera aproximada (por ejemplo, sin tener en cuenta la velocidad del movimiento) y (2) el texto puede incluir tanto descripciones de contenido como de movimiento, introducimos un módulo de estimación de intensidad de movimiento, así como un módulo de re-ponderación de texto para reducir la ambigüedad del mapeo de texto a movimiento. La evidencia empírica sugiere que nuestro enfoque es capaz de decodificar bien las instrucciones textuales relacionadas con el movimiento en videos, como acciones, movimientos de cámara o incluso conjurar nuevos contenidos de la nada (por ejemplo, verter agua en un vaso vacío). Curiosamente, gracias al mecanismo de aprendizaje de intensidad propuesto, nuestro sistema ofrece a los usuarios una señal de control adicional (es decir, la intensidad del movimiento) además del texto para la personalización del video.
English
Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.
PDF183December 15, 2024