VLOGGER: Мультимодальная диффузия для синтеза воплощенного аватара
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
March 13, 2024
Авторы: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu
cs.AI
Аннотация
Мы предлагаем VLOGGER, метод генерации видео человека по аудио с использованием одного входного изображения человека, основанный на успехе недавних генеративных моделей диффузии. Наш метод состоит из 1) стохастической модели диффузии человека в трехмерное движение и 2) новой архитектуры на основе диффузии, которая дополняет модели текста к изображению как пространственными, так и временными контролями. Это поддерживает генерацию видео высокого качества переменной длины, легко управляемую через высокоуровневые представления лиц и тел человека. В отличие от предыдущих работ, наш метод не требует обучения для каждого человека, не зависит от обнаружения и обрезки лица, генерирует полное изображение (а не только лицо или губы) и учитывает широкий спектр сценариев (например, видимый торс или разнообразные идентичности объектов), что критически важно для правильного синтеза людей, взаимодействующих друг с другом. Мы также создаем MENTOR, новый и разнообразный набор данных с аннотациями трехмерной позы и выражениями, в десять раз больший, чем предыдущие (800 000 идентичностей), с динамическими жестами, на котором мы обучаем и анализируем наши основные технические вклады. VLOGGER превосходит методы новейших технологий в трех общедоступных бенчмарках, учитывая качество изображения, сохранение идентичности и временную последовательность, а также генерирует жесты верхней части тела. Мы анализируем производительность VLOGGER по множеству метрик разнообразия, показывая, что наши архитектурные решения и использование MENTOR способствуют обучению справедливой и неискаженной модели в масштабе. Наконец, мы показываем применения в видеомонтаже и персонализации.
English
We propose VLOGGER, a method for audio-driven human video generation from a
single input image of a person, which builds on the success of recent
generative diffusion models. Our method consists of 1) a stochastic
human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture
that augments text-to-image models with both spatial and temporal controls.
This supports the generation of high quality video of variable length, easily
controllable through high-level representations of human faces and bodies. In
contrast to previous work, our method does not require training for each
person, does not rely on face detection and cropping, generates the complete
image (not just the face or the lips), and considers a broad spectrum of
scenarios (e.g. visible torso or diverse subject identities) that are critical
to correctly synthesize humans who communicate. We also curate MENTOR, a new
and diverse dataset with 3d pose and expression annotations, one order of
magnitude larger than previous ones (800,000 identities) and with dynamic
gestures, on which we train and ablate our main technical contributions.
VLOGGER outperforms state-of-the-art methods in three public benchmarks,
considering image quality, identity preservation and temporal consistency while
also generating upper-body gestures. We analyze the performance of VLOGGER with
respect to multiple diversity metrics, showing that our architectural choices
and the use of MENTOR benefit training a fair and unbiased model at scale.
Finally we show applications in video editing and personalization.Summary
AI-Generated Summary