GenLCA: Diffusione 3D per Avatar Full-Body da Video In-the-Wild

Abstract

Presentiamo GenLCA, un modello generativo basato sulla diffusione per la creazione e la modifica di avatar fotorealistici a figura intera a partire da input testuali e immagini. Gli avatar generati sono fedeli agli input, supportando al contempo animazioni facciali e corporee di alta fedeltà. L'idea centrale è un nuovo paradigma che consente di addestrare un modello di diffusione 3D per il corpo intero a partire da dati 2D parzialmente osservabili, permettendo al dataset di addestramento di scalare fino a milioni di video del mondo reale. Questa scalabilità contribuisce alla superiore fotorealismo e generalizzabilità di GenLCA. Nello specifico, aumentiamo la scala del dataset riutilizzando un modello preaddestrato di ricostruzione di avatar feed-forward come tokenizer 3D animabile, che codifica fotogrammi video non strutturati in token 3D strutturati. Tuttavia, la maggior parte dei video del mondo reale fornisce solo osservazioni parziali delle parti del corpo, risultando in artefatti eccessivi di sfocatura o trasparenza nei token 3D. Per risolvere questo problema, proponiamo una nuova strategia di addestramento per modelli di diffusione "visibility-aware" che sostituisce le regioni non valide con token apprendibili e calcola le perdite solo sulle regioni valide. Addestriamo quindi un modello di diffusione basato su flusso sul dataset di token, mantenendo intrinsecamente il fotorealismo e l'animabilità forniti dal modello preaddestrato di ricostruzione avatar. Il nostro approccio consente efficacemente l'uso di dati video su larga scala del mondo reale per addestrare un modello di diffusione nativamente in 3D. Dimostriamo l'efficacia del nostro metodo attraverso risultati di generazione e modifica diversificati e di alta fedeltà, superando di gran lunga le soluzioni esistenti. La pagina del progetto è disponibile all'indirizzo https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: Diffusione 3D per Avatar Full-Body da Video In-the-Wild

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Abstract

Support