FRESCO: 제로샷 비디오 변환을 위한 시공간적 대응
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
March 19, 2024
저자: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
초록
텍스트-이미지 확산 모델의 놀라운 효능은 비디오 영역에서의 잠재적 응용 가능성에 대한 광범위한 탐구를 촉진해 왔습니다. 제로샷 방법은 모델 학습 없이도 이미지 확산 모델을 비디오로 확장하려는 시도입니다. 최근의 방법들은 주로 프레임 간 대응 관계를 어텐션 메커니즘에 통합하는 데 초점을 맞추고 있습니다. 그러나 유효한 특징에 주의를 기울일 위치를 결정하는 데 부과되는 소프트 제약은 때때로 불충분하여 시간적 불일치를 초래할 수 있습니다. 본 논문에서는 더 강력한 시공간적 제약을 확립하기 위해 프레임 간 대응 관계와 함께 프레임 내 대응 관계를 도입한 FRESCO를 소개합니다. 이 개선은 프레임 간 의미적으로 유사한 콘텐츠의 더 일관된 변환을 보장합니다. 단순한 어텐션 가이드라인을 넘어, 우리의 접근 방식은 입력 비디오와 높은 시공간적 일관성을 달성하기 위해 특징을 명시적으로 업데이트함으로써 결과적으로 생성된 변환 비디오의 시각적 일관성을 크게 향상시킵니다. 광범위한 실험을 통해 우리가 제안한 프레임워크가 고품질의 일관된 비디오를 생성하는 데 효과적임을 입증하며, 기존의 제로샷 방법 대비 뚜렷한 개선을 보여줍니다.
English
The remarkable efficacy of text-to-image diffusion models has motivated
extensive exploration of their potential application in video domains.
Zero-shot methods seek to extend image diffusion models to videos without
necessitating model training. Recent methods mainly focus on incorporating
inter-frame correspondence into attention mechanisms. However, the soft
constraint imposed on determining where to attend to valid features can
sometimes be insufficient, resulting in temporal inconsistency. In this paper,
we introduce FRESCO, intra-frame correspondence alongside inter-frame
correspondence to establish a more robust spatial-temporal constraint. This
enhancement ensures a more consistent transformation of semantically similar
content across frames. Beyond mere attention guidance, our approach involves an
explicit update of features to achieve high spatial-temporal consistency with
the input video, significantly improving the visual coherence of the resulting
translated videos. Extensive experiments demonstrate the effectiveness of our
proposed framework in producing high-quality, coherent videos, marking a
notable improvement over existing zero-shot methods.Summary
AI-Generated Summary