GenLCA : Diffusion 3D pour avatars en corps entier à partir de vidéos en conditions réelles

Résumé

Nous présentons GenLCA, un modèle génératif basé sur la diffusion pour la création et l'édition d'avatars photoréalistes en corps entier à partir de saisies textuelles et visuelles. Les avatars générés sont fidèles aux entrées, tout en prenant en charge des animations faciales et corporelles de haute fidélité. L'idée centrale repose sur un nouveau paradigme permettant d'entraîner un modèle de diffusion 3D en corps entier à partir de données 2D partiellement observables, autorisant ainsi la mise à l'échelle du jeu d'entraînement vers des millions de vidéos du monde réel. Cette extensibilité contribue au photoréalisme et à la généralisabilité supérieurs de GenLCA. Concrètement, nous augmentons l'échelle du jeu de données en réutilisant un modèle préentraîné de reconstruction d'avatars par propagation directe comme tokeniseur 3D animable, qui encode des images vidéo non structurées en tokens 3D structurés. Cependant, la plupart des vidéos du monde réel ne fournissent que des observations partielles des parties du corps, entraînant des artéfacts de flou excessif ou de transparence dans les tokens 3D. Pour y remédier, nous proposons une nouvelle stratégie d'entraînement par diffusion sensible à la visibilité qui remplace les régions non valides par des tokens apprenables et calcule les pertes uniquement sur les régions valides. Nous entraînons ensuite un modèle de diffusion basé sur des flux sur le jeu de données tokenisé, préservant intrinsèquement le photoréalisme et la capacité d'animation fournis par le modèle préentraîné de reconstruction d'avatars. Notre approche permet efficacement l'utilisation de données vidéo à grande échelle du monde réel pour entraîner un modèle de diffusion natif en 3D. Nous démontrons l'efficacité de notre méthode grâce à des résultats de génération et d'édition diversifiés et de haute fidélité, surpassant largement les solutions existantes. La page du projet est disponible à l'adresse https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA : Diffusion 3D pour avatars en corps entier à partir de vidéos en conditions réelles

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Résumé

Support