DNA-렌더링: 고해상도 인간 중심 렌더링을 위한 다양한 신경망 액터 저장소
DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering
July 19, 2023
저자: Wei Cheng, Ruixiang Chen, Wanqi Yin, Siming Fan, Keyu Chen, Honglin He, Huiwen Luo, Zhongang Cai, Jingbo Wang, Yang Gao, Zhengming Yu, Zhengyu Lin, Daxuan Ren, Lei Yang, Ziwei Liu, Chen Change Loy, Chen Qian, Wayne Wu, Dahua Lin, Bo Dai, Kwan-Yee Lin
cs.AI
초록
실사적인 인간 중심 렌더링은 컴퓨터 비전과 컴퓨터 그래픽스 분야에서 핵심적인 역할을 한다. 지난 몇 년간 알고리즘 측면에서 급속한 발전이 이루어졌지만, 기존의 인간 중심 렌더링 데이터셋과 벤치마크는 다양성 측면에서 상당히 빈약한 실정이며, 이는 렌더링 효과에 있어 중요한 요소이다. 연구자들은 현재의 데이터셋을 통해 소수의 렌더링 문제를 탐구하고 평가하는 데 제약을 받는 반면, 실제 응용에서는 다양한 시나리오에서도 견고한 방법이 요구된다. 본 연구에서는 신경망 기반 배우 렌더링을 위한 대규모 고품질 인간 성능 데이터 저장소인 DNA-Rendering을 소개한다. DNA-Rendering은 몇 가지 매력적인 특성을 지닌다. 첫째, 우리의 데이터셋은 1500명 이상의 인간 피험자, 5000개의 동작 시퀀스, 그리고 6750만 프레임의 데이터 양을 포함한다. 둘째, 각 피험자에 대해 2D/3D 인체 키포인트, 전경 마스크, SMPLX 모델, 의복/액세서리 재질, 다중 뷰 이미지 및 비디오와 같은 풍부한 자산을 제공한다. 이러한 자산은 하류 렌더링 작업에서 현재 방법의 정확도를 향상시킨다. 셋째, 우리는 데이터를 캡처하기 위해 60대의 동기화된 카메라로 구성된 전문 다중 뷰 시스템을 구축했으며, 최대 4096 x 3000 해상도, 15fps 속도, 엄격한 카메라 보정 단계를 통해 작업 훈련 및 평가를 위한 고품질 자원을 보장한다. 데이터셋과 함께, 우리는 새로운 시점 합성, 새로운 포즈 애니메이션 합성, 새로운 신원 렌더링 방법의 기존 진전을 평가하기 위한 다중 작업을 포함한 대규모 정량적 벤치마크를 제공한다. 이 원고에서 우리는 DNA-Rendering의 노력을 통해 인간 중심 렌더링에 대한 새로운 관찰, 도전, 그리고 미래 방향을 제시한다. 데이터셋, 코드, 벤치마크는 https://dna-rendering.github.io/에서 공개될 예정이다.
English
Realistic human-centric rendering plays a key role in both computer vision
and computer graphics. Rapid progress has been made in the algorithm aspect
over the years, yet existing human-centric rendering datasets and benchmarks
are rather impoverished in terms of diversity, which are crucial for rendering
effect. Researchers are usually constrained to explore and evaluate a small set
of rendering problems on current datasets, while real-world applications
require methods to be robust across different scenarios. In this work, we
present DNA-Rendering, a large-scale, high-fidelity repository of human
performance data for neural actor rendering. DNA-Rendering presents several
alluring attributes. First, our dataset contains over 1500 human subjects, 5000
motion sequences, and 67.5M frames' data volume. Second, we provide rich assets
for each subject -- 2D/3D human body keypoints, foreground masks, SMPLX models,
cloth/accessory materials, multi-view images, and videos. These assets boost
the current method's accuracy on downstream rendering tasks. Third, we
construct a professional multi-view system to capture data, which contains 60
synchronous cameras with max 4096 x 3000 resolution, 15 fps speed, and stern
camera calibration steps, ensuring high-quality resources for task training and
evaluation. Along with the dataset, we provide a large-scale and quantitative
benchmark in full-scale, with multiple tasks to evaluate the existing progress
of novel view synthesis, novel pose animation synthesis, and novel identity
rendering methods. In this manuscript, we describe our DNA-Rendering effort as
a revealing of new observations, challenges, and future directions to
human-centric rendering. The dataset, code, and benchmarks will be publicly
available at https://dna-rendering.github.io/