GenLCA: Difusión 3D para Avatares de Cuerpo Completo a partir de Vídeos en Entornos no Controlados

Resumen

Presentamos GenLCA, un modelo generativo basado en difusión para generar y editar avatares fotorrealistas de cuerpo completo a partir de entradas de texto e imagen. Los avatares generados son fieles a las entradas, a la vez que admiten animaciones faciales y de cuerpo completo de alta fidelidad. La idea central es un paradigma novedoso que permite entrenar un modelo de difusión 3D de cuerpo completo a partir de datos 2D parcialmente observables, lo que posibilita que el conjunto de datos de entrenamiento se escale a millones de videos del mundo real. Esta escalabilidad contribuye al fotorrealismo y la capacidad de generalización superiores de GenLCA. Específicamente, ampliamos el conjunto de datos reutilizando un modelo preentrenado de reconstrucción de avatares de avance directo como un tokenizador 3D animable, que codifica fotogramas de video no estructurados en tokens 3D estructurados. Sin embargo, la mayoría de los videos del mundo real solo proporcionan observaciones parciales de las partes del cuerpo, lo que resulta en artefactos excesivos de desenfoque o transparencia en los tokens 3D. Para abordar esto, proponemos una novedosa estrategia de entrenamiento de difusión consciente de la visibilidad que reemplaza las regiones no válidas con tokens entrenables y calcula las pérdidas solo sobre las regiones válidas. Luego, entrenamos un modelo de difusión basado en flujo en el conjunto de datos de tokens, manteniendo inherentemente el fotorrealismo y la capacidad de animación proporcionados por el modelo preentrenado de reconstrucción de avatares. Nuestro enfoque permite efectivamente el uso de datos de video a gran escala del mundo real para entrenar un modelo de difusión de forma nativa en 3D. Demostramos la eficacia de nuestro método a través de resultados de generación y edición diversos y de alta fidelidad, superando ampliamente a las soluciones existentes. La página del proyecto está disponible en https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: Difusión 3D para Avatares de Cuerpo Completo a partir de Vídeos en Entornos no Controlados

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Resumen

Support