GenLCA:実世界映像からの全身アバター生成のための3D拡散モデル
GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos
April 8, 2026
著者: Yiqian Wu, Rawal Khirodkar, Egor Zakharov, Timur Bagautdinov, Lei Xiao, Zhaoen Su, Shunsuke Saito, Xiaogang Jin, Junxuan Li
cs.AI
要旨
本論文では、テキストおよび画像入力から写実的な全身アバターを生成・編集する拡散モデル「GenLCA」を提案する。生成されるアバターは入力内容に忠実でありながら、高精細な顔面および全身アニメーションを実現する。中核となるアイデアは、部分観測的な2Dデータから全身3D拡散モデルを学習可能にする新パラダイムであり、学習データセットを実世界の数百万規模の動画へ拡張することを可能にする。この拡張性がGenLCAの優れた写実性と一般化能力に寄与している。具体的には、事前学習済みのフィードフォワード型アバター再構成モデルを動画可能な3Dトークナイザーとして転用し、非構造化された動画フレームを構造化された3Dトークンへ符号化することでデータセットを大規模化する。しかし、実世界の動画の大部分は身体部位の部分観測しか提供しないため、3Dトークンには過度なぼやけや透明アーティファクトが生じる。この問題に対処するため、無効領域を学習可能トークンで置換し、有効領域のみで損失を計算する新しい可視性認識拡散学習戦略を提案する。続いて、トークンデータセットに対してフローベース拡散モデルを学習し、事前学習済みアバター再構成モデルが提供する写実性と動画化可能性を本質的に維持する。本手法は、大規模実世界動画データを3Dネイティブで拡散モデル学習に活用することを効果的に可能にする。多様性と高精細性を兼ね備えた生成・編集結果により本手法の有効性を実証し、既存手法を大きく上回る性能を示す。プロジェクトページはhttps://onethousandwu.com/GenLCA-Pageで公開されている。
English
We present GenLCA, a diffusion-based generative model for generating and editing photorealistic full-body avatars from text and image inputs. The generated avatars are faithful to the inputs, while supporting high-fidelity facial and full-body animations. The core idea is a novel paradigm that enables training a full-body 3D diffusion model from partially observable 2D data, allowing the training dataset to scale to millions of real-world videos. This scalability contributes to the superior photorealism and generalizability of GenLCA. Specifically, we scale up the dataset by repurposing a pretrained feed-forward avatar reconstruction model as an animatable 3D tokenizer, which encodes unstructured video frames into structured 3D tokens. However, most real-world videos only provide partial observations of body parts, resulting in excessive blurring or transparency artifacts in the 3D tokens. To address this, we propose a novel visibility-aware diffusion training strategy that replaces invalid regions with learnable tokens and computes losses only over valid regions. We then train a flow-based diffusion model on the token dataset, inherently maintaining the photorealism and animatability provided by the pretrained avatar reconstruction model. Our approach effectively enables the use of large-scale real-world video data to train a diffusion model natively in 3D. We demonstrate the efficacy of our method through diverse and high-fidelity generation and editing results, outperforming existing solutions by a large margin. The project page is available at https://onethousandwu.com/GenLCA-Page.