VLOGGER: Diffusione Multimodale per la Sintesi di Avatar Incarnati

Abstract

Proponiamo VLOGGER, un metodo per la generazione di video umani guidati da audio a partire da una singola immagine in input di una persona, che si basa sul successo dei recenti modelli generativi di diffusione. Il nostro metodo consiste in 1) un modello stocastico di diffusione da umano a movimento 3D, e 2) una nuova architettura basata su diffusione che potenzia i modelli text-to-image con controlli sia spaziali che temporali. Ciò supporta la generazione di video di alta qualità e lunghezza variabile, facilmente controllabili attraverso rappresentazioni di alto livello di volti e corpi umani. A differenza dei lavori precedenti, il nostro metodo non richiede addestramento per ogni persona, non si basa sul rilevamento e ritaglio del volto, genera l’immagine completa (non solo il volto o le labbra) e considera un ampio spettro di scenari (ad esempio torso visibile o identità diverse dei soggetti) che sono cruciali per sintetizzare correttamente esseri umani che comunicano. Abbiamo inoltre curato MENTOR, un nuovo e diversificato dataset con annotazioni di pose 3D ed espressioni, un ordine di grandezza più ampio rispetto ai precedenti (800.000 identità) e con gesti dinamici, su cui addestriamo e analizziamo i nostri principali contributi tecnici. VLOGGER supera i metodi all’avanguardia in tre benchmark pubblici, considerando qualità dell’immagine, preservazione dell’identità e coerenza temporale, generando anche gesti della parte superiore del corpo. Analizziamo le prestazioni di VLOGGER rispetto a molteplici metriche di diversità, dimostrando che le nostre scelte architetturali e l’uso di MENTOR favoriscono l’addestramento di un modello equo e imparziale su larga scala. Infine, mostriamo applicazioni nell’editing video e nella personalizzazione.

English

We propose VLOGGER, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of 1) a stochastic human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture that augments text-to-image models with both spatial and temporal controls. This supports the generation of high quality video of variable length, easily controllable through high-level representations of human faces and bodies. In contrast to previous work, our method does not require training for each person, does not rely on face detection and cropping, generates the complete image (not just the face or the lips), and considers a broad spectrum of scenarios (e.g. visible torso or diverse subject identities) that are critical to correctly synthesize humans who communicate. We also curate MENTOR, a new and diverse dataset with 3d pose and expression annotations, one order of magnitude larger than previous ones (800,000 identities) and with dynamic gestures, on which we train and ablate our main technical contributions. VLOGGER outperforms state-of-the-art methods in three public benchmarks, considering image quality, identity preservation and temporal consistency while also generating upper-body gestures. We analyze the performance of VLOGGER with respect to multiple diversity metrics, showing that our architectural choices and the use of MENTOR benefit training a fair and unbiased model at scale. Finally we show applications in video editing and personalization.

VLOGGER: Diffusione Multimodale per la Sintesi di Avatar Incarnati

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

Abstract

Support