ChatPaper.aiChatPaper

FlashMotion: 궤적 안내를 통한 소수 단계 제어 비디오 생성

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

March 12, 2026
저자: Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu
cs.AI

초록

궤적 제어 동영상 생성 분야의 최근 발전은 눈에 띄는 진전을 이루었습니다. 기존 방법들은 주로 미리 정의된 궤적을 따라 정밀한 모션 제어를 위해 어댑터 기반 아키텍처를 사용합니다. 그러나 이러한 방법들은 모두 다단계 잡음 제거 과정에 의존하여 상당한 시간 중복과 계산 부하가 발생합니다. 기존 동영상 증류 방법들은 다단계 생성기를 소수 단계로 증류하는 데 성공했지만, 이러한 접근법을 궤적 제어 동영상 생성에 직접 적용하면 동영상 품질과 궤적 정확도 모두에서 현저한 저하가 발생합니다. 이러한 격차를 해소하기 위해 우리는 소수 단계 궤적 제어 동영상 생성을 위해 설계된 새로운 훈련 프레임워크인 FlashMotion을 소개합니다. 우리는 먼저 정확한 궤적 제어를 위해 다단계 동영상 생성기에 궤적 어댑터를 훈련시킵니다. 그런 다음 생성기를 소수 단계 버전으로 증류하여 동영상 생성 속도를 높입니다. 마지막으로 확산 및 적대적 목적 함수를 결합한 하이브리드 전략을 사용하여 어댑터를 미세 조정함으로써 고품질이면서 궤적 정확도가 높은 동영상을 생성하도록 소수 단계 생성기와 조정합니다. 평가를 위해 우리는 다양한 수의 전경 객체에 걸쳐 동영상 품질과 궤적 정확도를 모두 측정하는 장면열 궤적 제어 동영상 생성 벤치마크인 FlashBench을 도입했습니다. 두 가지 어댑터 아키텍처에 대한 실험 결과, FlashMotion이 기존 동영상 증류 방법과 이전 다단계 모델들을 시각적 품질과 궤적 일관성 모두에서 능가하는 것으로 나타났습니다.
English
Recent advances in trajectory-controllable video generation have achieved remarkable progress. Previous methods mainly use adapter-based architectures for precise motion control along predefined trajectories. However, all these methods rely on a multi-step denoising process, leading to substantial time redundancy and computational overhead. While existing video distillation methods successfully distill multi-step generators into few-step, directly applying these approaches to trajectory-controllable video generation results in noticeable degradation in both video quality and trajectory accuracy. To bridge this gap, we introduce FlashMotion, a novel training framework designed for few-step trajectory-controllable video generation. We first train a trajectory adapter on a multi-step video generator for precise trajectory control. Then, we distill the generator into a few-step version to accelerate video generation. Finally, we finetune the adapter using a hybrid strategy that combines diffusion and adversarial objectives, aligning it with the few-step generator to produce high-quality, trajectory-accurate videos. For evaluation, we introduce FlashBench, a benchmark for long-sequence trajectory-controllable video generation that measures both video quality and trajectory accuracy across varying numbers of foreground objects. Experiments on two adapter architectures show that FlashMotion surpasses existing video distillation methods and previous multi-step models in both visual quality and trajectory consistency.
PDF52March 18, 2026