InfiniHuman: 精密制御による無限の3Dヒューマン生成
InfiniHuman: Infinite 3D Human Creation with Precise Control
October 13, 2025
著者: Yuxuan Xue, Xianghui Xie, Margaret Kostyrko, Gerard Pons-Moll
cs.AI
要旨
現実的で制御可能な3Dヒューマンアバターの生成は、特に民族性、年齢、服装スタイル、詳細な体型といった広範な属性範囲をカバーする場合、長年の課題となっています。生成モデルのトレーニング用に大規模な人間データセットを収集し注釈を付けることは、非常に高コストであり、規模と多様性が限られています。本論文で取り組む中心的な問いは、既存の基盤モデルを蒸留して、理論的に無制限で豊富な注釈付き3Dヒューマンデータを生成できるかどうかです。私たちはInfiniHumanを紹介します。これは、これらのモデルを相乗的に蒸留し、最小限のコストで理論的に無制限のスケーラビリティを持つ豊富な注釈付きヒューマンデータを生成するフレームワークです。私たちはInfiniHumanDataを提案します。これは、ビジョン言語モデルと画像生成モデルを活用して大規模なマルチモーダルデータセットを作成する完全自動のパイプラインです。ユーザー調査では、自動生成されたアイデンティティがスキャンレンダリングと区別できないことが示されています。InfiniHumanDataには、前例のない多様性を持つ111Kのアイデンティティが含まれています。各アイデンティティには、マルチグラニュラリティのテキスト記述、マルチビューRGB画像、詳細な服装画像、およびSMPL体型パラメータが注釈付けされています。このデータセットを基に、テキスト、体型、および服装アセットに条件付けされた拡散ベースの生成パイプラインであるInfiniHumanGenを提案します。InfiniHumanGenは、高速で現実的かつ精密に制御可能なアバター生成を可能にします。広範な実験により、視覚品質、生成速度、および制御性において最先端の手法を大幅に改善することが示されています。私たちのアプローチは、実用的で手頃なソリューションを通じて、細かい制御を伴う高品質なアバター生成を理論的に無制限のスケールで実現します。自動データ生成パイプライン、包括的なInfiniHumanDataデータセット、およびInfiniHumanGenモデルをhttps://yuxuan-xue.com/infini-humanで公開します。
English
Generating realistic and controllable 3D human avatars is a long-standing
challenge, particularly when covering broad attribute ranges such as ethnicity,
age, clothing styles, and detailed body shapes. Capturing and annotating
large-scale human datasets for training generative models is prohibitively
expensive and limited in scale and diversity. The central question we address
in this paper is: Can existing foundation models be distilled to generate
theoretically unbounded, richly annotated 3D human data? We introduce
InfiniHuman, a framework that synergistically distills these models to produce
richly annotated human data at minimal cost and with theoretically unlimited
scalability. We propose InfiniHumanData, a fully automatic pipeline that
leverages vision-language and image generation models to create a large-scale
multi-modal dataset. User study shows our automatically generated identities
are undistinguishable from scan renderings. InfiniHumanData contains 111K
identities spanning unprecedented diversity. Each identity is annotated with
multi-granularity text descriptions, multi-view RGB images, detailed clothing
images, and SMPL body-shape parameters. Building on this dataset, we propose
InfiniHumanGen, a diffusion-based generative pipeline conditioned on text, body
shape, and clothing assets. InfiniHumanGen enables fast, realistic, and
precisely controllable avatar generation. Extensive experiments demonstrate
significant improvements over state-of-the-art methods in visual quality,
generation speed, and controllability. Our approach enables high-quality avatar
generation with fine-grained control at effectively unbounded scale through a
practical and affordable solution. We will publicly release the automatic data
generation pipeline, the comprehensive InfiniHumanData dataset, and the
InfiniHumanGen models at https://yuxuan-xue.com/infini-human.