SG-I2V: 이미지-비디오 생성에서의 자기 주도적 궤적 제어
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
저자: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
초록
이미지-투-비디오 생성 방법은 인상적인 포토리얼리스틱 품질을 달성해 왔습니다. 그러나 생성된 비디오에서 객체의 움직임이나 카메라 이동과 같은 특정 요소를 조정하는 것은 종종 시행착오를 거치는 지루한 과정입니다. 예를 들어, 서로 다른 랜덤 시드를 사용하여 비디오를 다시 생성하는 것이 포함될 수 있습니다. 최근 기술은 바운딩 박스나 점 궤적과 같은 조건 신호를 따르도록 사전 훈련된 모델을 미세 조정하여 이 문제를 해결합니다. 그러나 이러한 미세 조정 절차는 계산 비용이 많이 들며, 주석이 달린 객체 움직임 데이터셋이 필요할 수 있어 이를 확보하기 어려울 수 있습니다. 본 연구에서는 사전 훈련된 이미지-투-비디오 확산 모델에 내재된 지식만을 활용하여 미세 조정이나 외부 지식 없이도 제로샷 제어를 제공하는 자기 주도형 프레임워크인 SG-I2V를 소개합니다. 우리의 제로샷 방법은 비지도 학습 기준선을 능가하면서 시각적 품질과 움직임 충실도 측면에서 지도 학습 모델과 경쟁력을 보입니다.
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.