ChatPaper.aiChatPaper

LivePhoto: 텍스트 기반 모션 제어를 통한 실사 이미지 애니메이션

LivePhoto: Real Image Animation with Text-guided Motion Control

December 5, 2023
저자: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI

초록

텍스트-투-비디오 생성 분야의 최근 발전에도 불구하고, 기존 연구들은 일반적으로 합성된 비디오에서 공간적 내용만이 텍스트에 의해 제어되고 시간적 움직임은 제어되지 않는 문제를 간과해 왔다. 이러한 도전에 직면하여, 본 연구는 사용자가 관심 있는 이미지를 텍스트 설명으로 애니메이션화할 수 있는 실용적인 시스템인 LivePhoto를 제안한다. 먼저, 잘 학습된 텍스트-투-이미지 생성기(예: Stable Diffusion)가 이미지를 추가 입력으로 받아들일 수 있도록 강력한 베이스라인을 구축한다. 그런 다음, 개선된 생성기에 시간적 모델링을 위한 모션 모듈을 장착하고 텍스트와 움직임을 더 잘 연결하기 위해 신중하게 설계된 훈련 파이프라인을 제안한다. 특히, (1) 텍스트가 움직임을 대략적으로만 설명할 수 있고(예: 이동 속도와 무관하게), (2) 텍스트가 내용과 움직임 설명을 모두 포함할 수 있다는 사실을 고려하여, 텍스트-투-모션 매핑의 모호성을 줄이기 위해 모션 강도 추정 모듈과 텍스트 재가중 모듈을 도입한다. 실험 결과는 우리의 접근법이 동작, 카메라 이동, 심지어는 빈 공간에서 새로운 내용을 창조하는 것(예: 빈 유리잔에 물을 붓는 것)과 같은 움직임 관련 텍스트 지시를 비디오로 잘 디코딩할 수 있음을 보여준다. 흥미롭게도, 제안된 강도 학습 메커니즘 덕분에, 우리 시스템은 사용자에게 비디오 맞춤화를 위한 텍스트 외에 추가적인 제어 신호(즉, 모션 강도)를 제공한다.
English
Despite the recent progress in text-to-video generation, existing studies usually overlook the issue that only spatial contents but not temporal motions in synthesized videos are under the control of text. Towards such a challenge, this work presents a practical system, named LivePhoto, which allows users to animate an image of their interest with text descriptions. We first establish a strong baseline that helps a well-learned text-to-image generator (i.e., Stable Diffusion) take an image as a further input. We then equip the improved generator with a motion module for temporal modeling and propose a carefully designed training pipeline to better link texts and motions. In particular, considering the facts that (1) text can only describe motions roughly (e.g., regardless of the moving speed) and (2) text may include both content and motion descriptions, we introduce a motion intensity estimation module as well as a text re-weighting module to reduce the ambiguity of text-to-motion mapping. Empirical evidence suggests that our approach is capable of well decoding motion-related textual instructions into videos, such as actions, camera movements, or even conjuring new contents from thin air (e.g., pouring water into an empty glass). Interestingly, thanks to the proposed intensity learning mechanism, our system offers users an additional control signal (i.e., the motion intensity) besides text for video customization.
PDF183December 15, 2024