GenLCA: 3D-diffusie voor volledige lichaamsavatars vanuit video's in de vrije wereld

Samenvatting

Wij presenteren GenLCA, een op diffusie gebaseerd generatief model voor het genereren en bewerken van fotorealistische volledige lichaamsavatars op basis van tekst- en beeldinvoer. De gegenereerde avatars zijn getrouw aan de invoer, terwijl ze hoogwaardige gelaats- en lichaamsanimaties ondersteunen. De kernidee is een nieuw paradigma dat het mogelijk maakt een 3D-diffusiemodel voor het volledige lichaam te trainen met gedeeltelijk observeerbare 2D-gegevens, waardoor de trainingsdataset kan worden opgeschaald naar miljoenen real-world video's. Deze schaalbaarheid draagt bij aan de superieure fotorealistische kwaliteit en generaliseerbaarheid van GenLCA. Concreet schalen we de dataset op door een vooraf getraind feed-forward avatarreconstructiemodel te hergebruiken als een animeerbare 3D-tokenizer, die ongestructureerde videoframes codeert in gestructureerde 3D-tokens. Echter, de meeste real-world video's bieden slechts gedeeltelijke observaties van lichaamsdelen, wat resulteert in overmatige vervaging of transparantie-artefacten in de 3D-tokens. Om dit aan te pakken, stellen we een nieuwe zichtbaarheidsbewuste diffusietrainingsstrategie voor die ongeldige regio's vervangt door leerbare tokens en verliezen alleen berekent over geldige regio's. Vervolgens trainen we een op stroming gebaseerd diffusiemodel op de tokendataset, waarbij de fotorealistische kwaliteit en animeerbaarheid van het vooraf getrainde avatarreconstructiemodel inherent behouden blijven. Onze aanpak maakt het effectief mogelijk grootschalige real-world videogegevens te gebruiken om een diffusiemodel native in 3D te trainen. Wij demonstreren de doeltreffendheid van onze methode door middel van diverse en hoogwaardige generatie- en bewerkingsresultaten, die bestaande oplossingen met een grote marge overtreffen. De projectpagina is beschikbaar op https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: 3D-diffusie voor volledige lichaamsavatars vanuit video's in de vrije wereld

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Samenvatting

Support