FreeTraj: Настройка-бесплатное управление траекторией в моделях видео-диффузии
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
June 24, 2024
Авторы: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI
Аннотация
Модель диффузии продемонстрировала выдающуюся способность в генерации видео, что привлекло интерес к внедрению управления траекторией в процесс генерации. В то время как существующие работы в основном сосредотачиваются на методах, основанных на обучении (например, условный адаптер), мы утверждаем, что сама модель диффузии обеспечивает приличное управление созданным контентом без необходимости обучения. В данном исследовании мы представляем настраиваемую рамку для достижения управляемой траекторной генерации видео, накладывая руководство как на конструирование шума, так и на вычисление внимания. Конкретно, 1) мы сначала показываем несколько поучительных явлений и анализируем, как начальные шумы влияют на траекторию движения созданного контента. 2) В дальнейшем мы предлагаем FreeTraj, настраиваемый подход, который обеспечивает управление траекторией путем модификации выборки шума и механизмов внимания. 3) Кроме того, мы расширяем FreeTraj для облегчения генерации более длительных и крупных видео с управляемыми траекториями. Обладая этими конструкциями, пользователи имеют гибкость предоставлять траектории вручную или выбирать траектории, автоматически созданные планировщиком траекторий LLM. Обширные эксперименты подтверждают эффективность нашего подхода в улучшении управляемости траекторий моделей диффузии видео.
English
Diffusion model has demonstrated remarkable capability in video generation,
which further sparks interest in introducing trajectory control into the
generation process. While existing works mainly focus on training-based methods
(e.g., conditional adapter), we argue that diffusion model itself allows decent
control over the generated content without requiring any training. In this
study, we introduce a tuning-free framework to achieve trajectory-controllable
video generation, by imposing guidance on both noise construction and attention
computation. Specifically, 1) we first show several instructive phenomenons and
analyze how initial noises influence the motion trajectory of generated
content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that
enables trajectory control by modifying noise sampling and attention
mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger
video generation with controllable trajectories. Equipped with these designs,
users have the flexibility to provide trajectories manually or opt for
trajectories automatically generated by the LLM trajectory planner. Extensive
experiments validate the efficacy of our approach in enhancing the trajectory
controllability of video diffusion models.Summary
AI-Generated Summary