ChatPaper.aiChatPaper

Boximator: Генерация богатых и управляемых движений для синтеза видео

Boximator: Generating Rich and Controllable Motions for Video Synthesis

February 2, 2024
Авторы: Jiawei Wang, Yuchen Zhang, Jiaxin Zou, Yan Zeng, Guoqiang Wei, Liping Yuan, Hang Li
cs.AI

Аннотация

Создание насыщенных и управляемых движений является ключевой задачей в синтезе видео. Мы предлагаем Boximator — новый подход для точного управления движением. Boximator вводит два типа ограничений: жёсткие рамки (hard box) и мягкие рамки (soft box). Пользователи выделяют объекты на исходном кадре с помощью жёстких рамок, а затем используют любой тип рамок для приблизительного или строгого определения положения, формы или траектории движения объекта в последующих кадрах. Boximator функционирует как плагин для существующих моделей диффузии видео. Его процесс обучения сохраняет знания базовой модели за счёт заморозки исходных весов и обучения только управляющего модуля. Для решения задач обучения мы предлагаем новую технику самотрекинга, которая значительно упрощает изучение корреляций между рамками и объектами. Экспериментально Boximator достигает наилучших показателей качества видео (FVD), превосходя две базовые модели, и демонстрирует дальнейшее улучшение после включения ограничений рамками. Его высокая управляемость движением подтверждается значительным увеличением метрики выравнивания ограничивающих рамок. Человеческая оценка также показывает, что пользователи предпочитают результаты генерации Boximator по сравнению с базовой моделью.
English
Generating rich and controllable motion is a pivotal challenge in video synthesis. We propose Boximator, a new approach for fine-grained motion control. Boximator introduces two constraint types: hard box and soft box. Users select objects in the conditional frame using hard boxes and then use either type of boxes to roughly or rigorously define the object's position, shape, or motion path in future frames. Boximator functions as a plug-in for existing video diffusion models. Its training process preserves the base model's knowledge by freezing the original weights and training only the control module. To address training challenges, we introduce a novel self-tracking technique that greatly simplifies the learning of box-object correlations. Empirically, Boximator achieves state-of-the-art video quality (FVD) scores, improving on two base models, and further enhanced after incorporating box constraints. Its robust motion controllability is validated by drastic increases in the bounding box alignment metric. Human evaluation also shows that users favor Boximator generation results over the base model.
PDF284December 15, 2024