비디오JAM: 향상된 동영상 모델의 동작 생성을 위한 공동 외모-동작 표현VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion
Generation in Video Models
최근의 엄청난 발전에도 불구하고, 생성적 비디오 모델은 여전히 현실 세계의 움직임, 역학 및 물리를 포착하는 데 어려움을 겪고 있습니다. 이 한계는 기존의 픽셀 재구성 목표에서 비롯되며, 모델을 움직임 일관성의 비용으로 외관 믿음성으로 편향시킨다는 것을 보여줍니다. 이를 해결하기 위해 우리는 VideoJAM을 소개합니다. 이는 모델이 공동 외관-움직임 표현을 학습하도록 장려함으로써 비디오 생성기에 효과적인 움직임 사전을 주입하는 혁신적인 프레임워크입니다. VideoJAM은 두 가지 보완적인 유닛으로 구성됩니다. 훈련 중에 우리는 생성된 픽셀과 해당 움직임을 단일 학습된 표현으로부터 예측하는 목표를 확장합니다. 추론 중에는 Inner-Guidance를 도입하여, 모델의 진화하는 움직임 예측을 동적 가이드 신호로 활용하여 일관된 움직임으로 생성을 이끕니다. 특히, 우리의 프레임워크는 최소한의 수정으로 어떤 비디오 모델에도 적용될 수 있으며, 훈련 데이터의 수정이나 모델의 스케일링이 필요하지 않습니다. VideoJAM은 움직임 일관성에서 최고 수준의 성능을 달성하며, 매우 경쟁력 있는 전용 모델을 능가하면서 생성물의 시각적 품질을 향상시킵니다. 이 연구 결과는 외관과 움직임이 보완적일 수 있으며, 효과적으로 통합될 때 비디오 생성물의 시각적 품질과 일관성을 향상시킬 수 있다는 점을 강조합니다. 프로젝트 웹사이트: https://hila-chefer.github.io/videojam-paper.github.io/