프레임 가이던스: 비디오 확산 모델에서 프레임 단위 제어를 위한 학습 없는 가이던스
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
June 8, 2025
저자: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang
cs.AI
초록
확산 모델의 발전으로 비디오 품질이 크게 향상되면서, 세밀한 제어 가능성에 대한 관심이 집중되고 있다. 그러나 기존의 많은 방법들은 특정 작업을 위해 대규모 비디오 모델을 미세 조정하는 데 의존하고 있으며, 이는 모델 크기가 계속 증가함에 따라 점점 더 비현실적이 되고 있다. 본 연구에서는 키프레임, 스타일 참조 이미지, 스케치, 깊이 맵과 같은 프레임 수준 신호를 기반으로 한 학습 없이도 제어 가능한 비디오 생성을 위한 Frame Guidance를 제안한다. 실용적인 학습 없는 가이던스를 위해, 메모리 사용량을 극적으로 줄이는 간단한 잠재 처리 방법을 제안하고, 전역적으로 일관된 비디오 생성을 위해 설계된 새로운 잠재 최적화 전략을 적용한다. Frame Guidance는 키프레임 가이던스, 스타일화, 루핑 등 다양한 작업에 걸쳐 효과적인 제어를 가능하게 하며, 어떠한 학습도 필요 없이 모든 비디오 모델과 호환된다. 실험 결과는 Frame Guidance가 다양한 작업과 입력 신호에 대해 고품질의 제어된 비디오를 생성할 수 있음을 보여준다.
English
Advancements in diffusion models have significantly improved video quality,
directing attention to fine-grained controllability. However, many existing
methods depend on fine-tuning large-scale video models for specific tasks,
which becomes increasingly impractical as model sizes continue to grow. In this
work, we present Frame Guidance, a training-free guidance for controllable
video generation based on frame-level signals, such as keyframes, style
reference images, sketches, or depth maps. For practical training-free
guidance, we propose a simple latent processing method that dramatically
reduces memory usage, and apply a novel latent optimization strategy designed
for globally coherent video generation. Frame Guidance enables effective
control across diverse tasks, including keyframe guidance, stylization, and
looping, without any training, compatible with any video models. Experimental
results show that Frame Guidance can produce high-quality controlled videos for
a wide range of tasks and input signals.