GenLCA: Difusão 3D para Avatares de Corpo Inteiro a partir de Vídeos em Ambientes Não Controlados

Resumo

Apresentamos o GenLCA, um modelo generativo baseado em difusão para gerar e editar avatares fotorealísticos de corpo inteiro a partir de entradas de texto e imagem. Os avatares gerados são fiéis às entradas, suportando simultaneamente animações faciais e de corpo inteiro de alta fidelidade. A ideia central é um novo paradigma que permite treinar um modelo de difusão 3D de corpo inteiro a partir de dados 2D parcialmente observáveis, permitindo que o conjunto de dados de treinamento seja escalado para milhões de vídeos do mundo real. Essa escalabilidade contribui para o fotorealismo e a generalizabilidade superiores do GenLCA. Especificamente, ampliamos o conjunto de dados reutilizando um modelo pré-treinado de reconstrução de avatares *feed-forward* como um tokenizador 3D animável, que codifica quadros de vídeo não estruturados em tokens 3D estruturados. No entanto, a maioria dos vídeos do mundo real fornece apenas observações parciais das partes do corpo, resultando em artefatos excessivos de desfoque ou transparência nos tokens 3D. Para resolver isso, propomos uma nova estratégia de treinamento de difusão com consciência da visibilidade, que substitui regiões inválidas por tokens aprendíveis e calcula as perdas apenas sobre as regiões válidas. Em seguida, treinamos um modelo de difusão baseado em fluxo no conjunto de dados de tokens, mantendo inerentemente o fotorealismo e a capacidade de animação fornecidos pelo modelo pré-treinado de reconstrução de avatares. Nossa abordagem permite efetivamente o uso de dados de vídeo em larga escala do mundo real para treinar um modelo de difusão nativamente em 3D. Demonstramos a eficácia do nosso método por meio de resultados de geração e edição diversos e de alta fidelidade, superando as soluções existentes por uma grande margem. A página do projeto está disponível em https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: Difusão 3D para Avatares de Corpo Inteiro a partir de Vídeos em Ambientes Não Controlados

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Resumo

Support