GenLCA: 3D-Diffusion für Ganzkörper-Avatare aus unkontrollierten Videos

Zusammenfassung

Wir stellen GenLCA vor, ein diffusionsbasiertes generatives Modell zur Erzeugung und Bearbeitung fotorealistischer Ganzkörper-Avatare aus Text- und Bildeingaben. Die generierten Avatare sind eingabetreu und unterstützen hochwertige Gesichts- und Ganzkörperanimationen. Der Kernansatz ist ein neuartiges Paradigma, das das Training eines 3D-Diffusionsmodells für den gesamten Körper aus teilweise beobachtbaren 2D-Daten ermöglicht, wodurch der Trainingsdatensatz auf Millionen von realen Videos skaliert werden kann. Diese Skalierbarkeit trägt zur überlegenen Fotorealismus und Generalisierbarkeit von GenLCA bei. Konkret skalieren wir den Datensatz, indem wir ein vortrainiertes feed-forward Avatar-Rekonstruktionsmodell als animierbaren 3D-Tokenizer wiederverwenden, der unstrukturierte Videobilder in strukturierte 3D-Token kodiert. Die meisten realen Videos liefern jedoch nur Teilansichten von Körperpartien, was zu übermäßiger Unschärfe oder Transparenzartefakten in den 3D-Token führt. Um dies zu adressieren, schlagen wir eine neuartige sichtbarkeitsbewusste Diffusions-Trainingsstrategie vor, die ungültige Regionen durch lernbare Token ersetzt und Verluste nur über valide Regionen berechnet. Anschließend trainieren wir ein flussbasiertes Diffusionsmodell auf dem Token-Datensatz, wodurch der Fotorealismus und die Animierbarkeit des vortrainierten Avatar-Rekonstruktionsmodells inherent erhalten bleiben. Unser Ansatz ermöglicht effektiv die Nutzung großvolumiger realer Videodaten zum Training eines nativen 3D-Diffusionsmodells. Wir demonstrieren die Wirksamkeit unserer Methode durch vielfältige und hochwertige Generierungs- und Bearbeitungsergebnisse, die bestehende Lösungen deutlich übertreffen. Die Projektseite ist verfügbar unter https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: 3D-Diffusion für Ganzkörper-Avatare aus unkontrollierten Videos

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Zusammenfassung

Support