Orientação de Quadros: Orientação Livre de Treinamento para Controle em Nível de Quadro em Modelos de Difusão de Vídeo
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
June 8, 2025
Autores: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang
cs.AI
Resumo
Avanços nos modelos de difusão melhoraram significativamente a qualidade de vídeos, direcionando a atenção para a controlabilidade em nível de detalhes. No entanto, muitos métodos existentes dependem do ajuste fino de modelos de vídeo em grande escala para tarefas específicas, o que se torna cada vez mais impraticável à medida que os tamanhos dos modelos continuam a crescer. Neste trabalho, apresentamos o Frame Guidance, uma orientação sem treinamento para geração controlada de vídeos baseada em sinais em nível de quadro, como keyframes, imagens de referência de estilo, esboços ou mapas de profundidade. Para uma orientação prática sem treinamento, propomos um método simples de processamento latente que reduz drasticamente o uso de memória e aplicamos uma nova estratégia de otimização latente projetada para geração de vídeos globalmente coerentes. O Frame Guidance permite controle eficaz em diversas tarefas, incluindo orientação por keyframes, estilização e looping, sem qualquer treinamento, sendo compatível com qualquer modelo de vídeo. Resultados experimentais mostram que o Frame Guidance pode produzir vídeos controlados de alta qualidade para uma ampla gama de tarefas e sinais de entrada.
English
Advancements in diffusion models have significantly improved video quality,
directing attention to fine-grained controllability. However, many existing
methods depend on fine-tuning large-scale video models for specific tasks,
which becomes increasingly impractical as model sizes continue to grow. In this
work, we present Frame Guidance, a training-free guidance for controllable
video generation based on frame-level signals, such as keyframes, style
reference images, sketches, or depth maps. For practical training-free
guidance, we propose a simple latent processing method that dramatically
reduces memory usage, and apply a novel latent optimization strategy designed
for globally coherent video generation. Frame Guidance enables effective
control across diverse tasks, including keyframe guidance, stylization, and
looping, without any training, compatible with any video models. Experimental
results show that Frame Guidance can produce high-quality controlled videos for
a wide range of tasks and input signals.