어떤 것도 재현하기: 모션-텍스트 역변환을 활용한 의미론적 비디오 모션 전송
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
저자: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
초록
최근 몇 년간 비디오 생성 및 편집 기법의 품질이 크게 향상되었습니다. 여러 기법들이 외관 편집에 초점을 맞추고 있지만, 동작을 다루는 기법은 많지 않습니다. 현재 텍스트, 궤적 또는 경계 상자를 사용하는 접근 방식은 단순한 동작에 국한되어 있으므로, 우리는 단일 동작 참조 비디오를 사용하여 동작을 지정합니다. 또한, 텍스트-투-비디오 모델 대신 사전 학습된 이미지-투-비디오 모델을 사용할 것을 제안합니다. 이 접근 방식은 대상 객체나 장면의 정확한 외관과 위치를 보존하고, 외관과 동작을 분리하는 데 도움을 줍니다. 우리의 방법인 '모션-텍스트 인버전'은 이미지-투-비디오 모델이 (잠재) 이미지 입력에서 주로 외관을 추출하고, 크로스-어텐션을 통해 주입된 텍스트/이미지 임베딩이 주로 동작을 제어한다는 관찰을 활용합니다. 따라서 우리는 텍스트/이미지 임베딩 토큰을 사용하여 동작을 표현합니다. 프레임당 여러 텍스트/이미지 임베딩 토큰을 포함하는 확장된 모션-텍스트 임베딩을 통해 높은 시간적 동작 세분화를 달성합니다. 동작 참조 비디오에 대해 최적화된 이 임베딩은 다양한 대상 이미지에 적용되어 의미적으로 유사한 동작을 가진 비디오를 생성할 수 있습니다. 우리의 접근 방식은 동작 참조 비디오와 대상 이미지 간의 공간적 정렬을 요구하지 않으며, 다양한 도메인에 걸쳐 일반화되고, 전신 및 얼굴 리액트먼트, 무생물 객체 및 카메라의 동작 제어와 같은 다양한 작업에 적용할 수 있습니다. 우리는 의미적 비디오 동작 전달 작업에서 우리의 방법의 효과를 실증적으로 입증하며, 이 맥락에서 기존 방법을 크게 능가함을 보여줍니다.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary