VLOGGER: Мультимодальная диффузия для синтеза воплощенного аватара

Аннотация

Мы предлагаем VLOGGER, метод генерации видео человека по аудио с использованием одного входного изображения человека, основанный на успехе недавних генеративных моделей диффузии. Наш метод состоит из 1) стохастической модели диффузии человека в трехмерное движение и 2) новой архитектуры на основе диффузии, которая дополняет модели текста к изображению как пространственными, так и временными контролями. Это поддерживает генерацию видео высокого качества переменной длины, легко управляемую через высокоуровневые представления лиц и тел человека. В отличие от предыдущих работ, наш метод не требует обучения для каждого человека, не зависит от обнаружения и обрезки лица, генерирует полное изображение (а не только лицо или губы) и учитывает широкий спектр сценариев (например, видимый торс или разнообразные идентичности объектов), что критически важно для правильного синтеза людей, взаимодействующих друг с другом. Мы также создаем MENTOR, новый и разнообразный набор данных с аннотациями трехмерной позы и выражениями, в десять раз больший, чем предыдущие (800 000 идентичностей), с динамическими жестами, на котором мы обучаем и анализируем наши основные технические вклады. VLOGGER превосходит методы новейших технологий в трех общедоступных бенчмарках, учитывая качество изображения, сохранение идентичности и временную последовательность, а также генерирует жесты верхней части тела. Мы анализируем производительность VLOGGER по множеству метрик разнообразия, показывая, что наши архитектурные решения и использование MENTOR способствуют обучению справедливой и неискаженной модели в масштабе. Наконец, мы показываем применения в видеомонтаже и персонализации.

English

We propose VLOGGER, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of 1) a stochastic human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture that augments text-to-image models with both spatial and temporal controls. This supports the generation of high quality video of variable length, easily controllable through high-level representations of human faces and bodies. In contrast to previous work, our method does not require training for each person, does not rely on face detection and cropping, generates the complete image (not just the face or the lips), and considers a broad spectrum of scenarios (e.g. visible torso or diverse subject identities) that are critical to correctly synthesize humans who communicate. We also curate MENTOR, a new and diverse dataset with 3d pose and expression annotations, one order of magnitude larger than previous ones (800,000 identities) and with dynamic gestures, on which we train and ablate our main technical contributions. VLOGGER outperforms state-of-the-art methods in three public benchmarks, considering image quality, identity preservation and temporal consistency while also generating upper-body gestures. We analyze the performance of VLOGGER with respect to multiple diversity metrics, showing that our architectural choices and the use of MENTOR benefit training a fair and unbiased model at scale. Finally we show applications in video editing and personalization.

VLOGGER: Мультимодальная диффузия для синтеза воплощенного аватара

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Аннотация

Support