GenLCA: 3D диффузия для создания аватаров всего тела из видеозаписей в естественных условиях

Аннотация

Мы представляем GenLCA — диффузионную генеративную модель для создания и редактирования фотореалистичных полноростовых аватаров на основе текстовых и изображентельных входных данных. Сгенерированные аватары точно соответствуют входным данным, одновременно поддерживая высокодетализированную лицевую и полноростовую анимацию. Ключевая идея заключается в новой парадигме, позволяющей обучать полноростовую 3D диффузионную модель на частично наблюдаемых 2D данных, что дает возможность масштабировать обучающий набор до миллионов реальных видео. Эта масштабируемость способствует превосходному фотореализму и обобщающей способности GenLCA. В частности, мы масштабируем набор данных, перепрофилируя предобученную прямую модель реконструкции аватаров в анимируемый 3D токенизатор, который кодирует неструктурированные видеокадры в структурированные 3D токены. Однако большинство реальных видео предоставляют лишь частичные наблюдения за частями тела, что приводит к чрезмерному размытию или артефактам прозрачности в 3D токенах. Для решения этой проблемы мы предлагаем новую стратегию обучения диффузии с учетом видимости, которая заменяет невалидные области обучаемыми токенами и вычисляет потери только по валидным областям. Затем мы обучаем потоковую диффузионную модель на наборе токенов, изначально сохраняя фотореализм и анимируемость, обеспеченные предобученной моделью реконструкции аватаров. Наш подход эффективно позволяет использовать крупномасштабные данные реальных видео для нативной тренировки диффузионной модели в 3D. Мы демонстрируем эффективность нашего метода с помощью разнообразных и высококачественных результатов генерации и редактирования, значительно превосходящих существующие решения. Страница проекта доступна по адресу https://onethousandwu.com/GenLCA-Page.

English

We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.

GenLCA: 3D диффузия для создания аватаров всего тела из видеозаписей в естественных условиях

GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

Аннотация

Support