InfiniHuman: 정밀 제어를 통한 무한 3D 인간 생성
InfiniHuman: Infinite 3D Human Creation with Precise Control
October 13, 2025
저자: Yuxuan Xue, Xianghui Xie, Margaret Kostyrko, Gerard Pons-Moll
cs.AI
초록
현실적이고 제어 가능한 3D 인간 아바타를 생성하는 것은 오랜 기간 동안의 과제로 남아 있으며, 특히 인종, 나이, 의상 스타일, 상세한 신체 형태와 같은 광범위한 속성 범위를 다룰 때 더욱 그러합니다. 생성 모델을 훈련시키기 위해 대규모 인간 데이터셋을 수집하고 주석을 달기는 비용이 너무 많이 들며, 규모와 다양성 면에서 제한적입니다. 본 논문에서 우리가 다루는 핵심 질문은 다음과 같습니다: 기존의 파운데이션 모델을 활용하여 이론적으로 무한하며, 풍부한 주석이 달린 3D 인간 데이터를 생성할 수 있는가? 우리는 InfiniHuman을 소개하며, 이 프레임워크는 이러한 모델들을 시너지적으로 활용하여 최소 비용으로 풍부한 주석이 달린 인간 데이터를 생성하고, 이론적으로 무한한 확장성을 제공합니다. 우리는 InfiniHumanData를 제안하는데, 이는 비전-언어 및 이미지 생성 모델을 활용하여 대규모 다중 모달 데이터셋을 생성하는 완전 자동화된 파이프라인입니다. 사용자 연구 결과, 우리가 자동으로 생성한 신원은 스캔 렌더링과 구분할 수 없음을 보여줍니다. InfiniHumanData는 전례 없는 다양성을 가진 111,000개의 신원을 포함하고 있습니다. 각 신원은 다중 세분화 텍스트 설명, 다중 뷰 RGB 이미지, 상세한 의상 이미지, 그리고 SMPL 신체 형태 파라미터로 주석이 달려 있습니다. 이 데이터셋을 기반으로, 우리는 InfiniHumanGen을 제안하는데, 이는 텍스트, 신체 형태, 의상 자산에 조건부된 디퓨전 기반 생성 파이프라인입니다. InfiniHumanGen은 빠르고 현실적이며 정밀하게 제어 가능한 아바타 생성을 가능하게 합니다. 광범위한 실험을 통해 시각적 품질, 생성 속도, 제어 가능성 면에서 최신 기술을 크게 개선함을 입증했습니다. 우리의 접근 방식은 실용적이고 경제적인 솔루션을 통해 세밀한 제어가 가능한 고품질 아바타 생성을 이론적으로 무한한 규모로 가능하게 합니다. 우리는 자동 데이터 생성 파이프라인, 포괄적인 InfiniHumanData 데이터셋, 그리고 InfiniHumanGen 모델을 https://yuxuan-xue.com/infini-human에서 공개할 예정입니다.
English
Generating realistic and controllable 3D human avatars is a long-standing
challenge, particularly when covering broad attribute ranges such as ethnicity,
age, clothing styles, and detailed body shapes. Capturing and annotating
large-scale human datasets for training generative models is prohibitively
expensive and limited in scale and diversity. The central question we address
in this paper is: Can existing foundation models be distilled to generate
theoretically unbounded, richly annotated 3D human data? We introduce
InfiniHuman, a framework that synergistically distills these models to produce
richly annotated human data at minimal cost and with theoretically unlimited
scalability. We propose InfiniHumanData, a fully automatic pipeline that
leverages vision-language and image generation models to create a large-scale
multi-modal dataset. User study shows our automatically generated identities
are undistinguishable from scan renderings. InfiniHumanData contains 111K
identities spanning unprecedented diversity. Each identity is annotated with
multi-granularity text descriptions, multi-view RGB images, detailed clothing
images, and SMPL body-shape parameters. Building on this dataset, we propose
InfiniHumanGen, a diffusion-based generative pipeline conditioned on text, body
shape, and clothing assets. InfiniHumanGen enables fast, realistic, and
precisely controllable avatar generation. Extensive experiments demonstrate
significant improvements over state-of-the-art methods in visual quality,
generation speed, and controllability. Our approach enables high-quality avatar
generation with fine-grained control at effectively unbounded scale through a
practical and affordable solution. We will publicly release the automatic data
generation pipeline, the comprehensive InfiniHumanData dataset, and the
InfiniHumanGen models at https://yuxuan-xue.com/infini-human.