GenLCA: 야생 환경 비디오 기반 전신 아바타 생성을 위한 3D 확산 모델
GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos
April 8, 2026
저자: Yiqian Wu, Rawal Khirodkar, Egor Zakharov, Timur Bagautdinov, Lei Xiao, Zhaoen Su, Shunsuke Saito, Xiaogang Jin, Junxuan Li
cs.AI
초록
본 논문에서는 텍스트 및 이미지 입력으로부터 사실적인 전신 아바타를 생성 및 편집하는 확산 기반 생성 모델인 GenLCA를 제안합니다. 생성된 아바타는 입력에 정확하게 부합하면서도 고품질의 얼굴 및 전신 애니메이션을 지원합니다. 핵심 아이디어는 부분적으로 관측 가능한 2D 데이터로부터 전신 3D 확산 모델을 학습할 수 있는 새로운 패러다임으로, 이를 통해 학습 데이터셋을 수백만 개의 실제 비디오로 확장할 수 있습니다. 이러한 확장성이 GenLCA의 우수한 사실감과 일반화 성능에 기여합니다. 구체적으로, 우리는 사전 학습된 피드포워드(feed-forward) 아바타 재구성 모델을 애니메이션 가능한 3D 토크나이저로 재활용하여 비정형 비디오 프레임을 정형화된 3D 토큰으로 인코딩함으로써 데이터셋을 대규모로 확장합니다. 그러나 대부분의 실제 비디오는 신체 부위의 부분적인 관측만을 제공하므로, 3D 토큰에서 과도한 흐림 또는 투명도 아티팩트가 발생합니다. 이를 해결하기 위해 우리는 유효하지 않은 영역을 학습 가능한 토큰으로 대체하고 유효한 영역에 대해서만 손실을 계산하는 새로운 가시성 인식 확산 학습 전략을 제안합니다. 그런 다음 토큰 데이터셋에 대해 흐름 기반 확산 모델을 학습하여 사전 학습된 아바타 재구성 모델이 제공하는 사실감과 애니메이션 가능성을 본질적으로 유지합니다. 우리의 접근 방식은 대규모 실제 비디오 데이터를 활용하여 3D 환경에서 네이티브하게 확산 모델을 학습하는 것을 효과적으로 가능하게 합니다. 우리는 다양하고 고품질의 생성 및 편집 결과를 통해 우리 방법의 효용성을 입증하며, 기존 솔루션을 큰 차이로 능가함을 보여줍니다. 프로젝트 페이지는 https://onethousandwu.com/GenLCA-Page에서 확인할 수 있습니다.
English
We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.