Human101: Treinando Gaussianas Humanas a 100+ FPS em 100s a partir de 1 Vista
Human101: Training 100+FPS Human Gaussians in 100s from 1 View
December 23, 2023
Autores: Mingwei Li, Jiachen Tao, Zongxin Yang, Yi Yang
cs.AI
Resumo
A reconstrução do corpo humano a partir de vídeos de visão única desempenha um papel fundamental no domínio da realidade virtual. Um cenário de aplicação prevalente exige a rápida reconstrução de humanos digitais 3D de alta fidelidade, ao mesmo tempo em que garante renderização e interação em tempo real. Os métodos existentes frequentemente lutam para atender a ambos os requisitos. Neste artigo, apresentamos o Human101, uma nova estrutura capaz de produzir reconstruções 3D dinâmicas de humanos de alta fidelidade a partir de vídeos de 1 visão, treinando Gaussianas 3D em 100 segundos e renderizando em mais de 100 FPS. Nosso método aproveita as vantagens do 3D Gaussian Splatting, que fornece uma representação explícita e eficiente de humanos 3D. Diferentemente dos pipelines baseados em NeRF anteriores, o Human101 aplica de forma engenhosa um método de Animação Gaussiana Direcionada ao Humano para deformar os parâmetros das Gaussianas 3D, aumentando assim a velocidade de renderização (ou seja, renderizando imagens de resolução 1024 em impressionantes 60+ FPS e imagens de resolução 512 em mais de 100 FPS). Os resultados experimentais indicam que nossa abordagem supera substancialmente os métodos atuais, atingindo um aumento de até 10 vezes em quadros por segundo e oferecendo qualidade de renderização comparável ou superior. O código e as demonstrações serão disponibilizados em https://github.com/longxiang-ai/Human101.
English
Reconstructing the human body from single-view videos plays a pivotal role in
the virtual reality domain. One prevalent application scenario necessitates the
rapid reconstruction of high-fidelity 3D digital humans while simultaneously
ensuring real-time rendering and interaction. Existing methods often struggle
to fulfill both requirements. In this paper, we introduce Human101, a novel
framework adept at producing high-fidelity dynamic 3D human reconstructions
from 1-view videos by training 3D Gaussians in 100 seconds and rendering in
100+ FPS. Our method leverages the strengths of 3D Gaussian Splatting, which
provides an explicit and efficient representation of 3D humans. Standing apart
from prior NeRF-based pipelines, Human101 ingeniously applies a Human-centric
Forward Gaussian Animation method to deform the parameters of 3D Gaussians,
thereby enhancing rendering speed (i.e., rendering 1024-resolution images at an
impressive 60+ FPS and rendering 512-resolution images at 100+ FPS).
Experimental results indicate that our approach substantially eclipses current
methods, clocking up to a 10 times surge in frames per second and delivering
comparable or superior rendering quality. Code and demos will be released at
https://github.com/longxiang-ai/Human101.