GST: Corpo Humano 3D Preciso a partir de uma Única Imagem com Espalhamento Gaussiano de Transformadores
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Autores: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Resumo
A reconstrução de modelos humanos 3D realistas a partir de imagens monoculares tem aplicações significativas nas indústrias criativas, interfaces humano-computador e saúde. Baseamos nosso trabalho em Splatting Gaussiano 3D (3DGS), uma representação de cena composta por uma mistura de gaussianas. Prever tais misturas para um humano a partir de uma única imagem de entrada é desafiador, pois trata-se de uma densidade não uniforme (com uma relação de muitos para um com pixels de entrada) com rigorosas restrições físicas. Ao mesmo tempo, precisa ser flexível para acomodar uma variedade de roupas e poses. Nossa observação chave é que os vértices de malhas humanas padronizadas (como SMPL) podem fornecer uma densidade adequada e posição inicial aproximada para as gaussianas. Podemos então treinar um modelo transformador para prever conjuntamente ajustes comparativamente pequenos a essas posições, bem como os atributos das outras gaussianas e os parâmetros do SMPL. Mostramos empiricamente que essa combinação (usando apenas supervisão multi-visão) pode alcançar uma inferência rápida de modelos humanos 3D a partir de uma única imagem sem otimização em tempo de teste, modelos de difusão caros ou supervisão de pontos 3D. Também demonstramos que pode melhorar a estimativa de pose 3D ao ajustar melhor modelos humanos que consideram roupas e outras variações. O código está disponível no site do projeto https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary