GST: Corpo umano 3D preciso da singola immagine con Gaussian Splatting Transformers
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Autori: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Abstract
La ricostruzione di modelli umani 3D realistici da immagini monoculari ha significative applicazioni nelle industrie creative, nelle interfacce uomo-computer e nell'assistenza sanitaria. Basiamo il nostro lavoro su Splatting Gaussiano 3D (3DGS), una rappresentazione della scena composta da una miscela di Gaussiane. Prevedere tali miscele per un essere umano da un'unica immagine di input è una sfida, poiché si tratta di una densità non uniforme (con una relazione molti-a-uno con i pixel di input) con rigide restrizioni fisiche. Allo stesso tempo, deve essere flessibile per adattarsi a una varietà di abiti e pose. La nostra osservazione chiave è che i vertici delle mesh umane standardizzate (come SMPL) possono fornire una densità adeguata e una posizione iniziale approssimativa per le Gaussiane. Possiamo quindi addestrare un modello trasformatore per prevedere congiuntamente aggiustamenti relativamente piccoli a queste posizioni, nonché gli attributi delle altre Gaussiane e i parametri SMPL. Dimostriamo empiricamente che questa combinazione (utilizzando solo supervisione multi-vista) può ottenere un'infusione rapida di modelli umani 3D da un'unica immagine senza ottimizzazione al momento del test, modelli di diffusione costosi o supervisione di punti 3D. Mostriamo inoltre che può migliorare la stima della posa 3D adattando meglio modelli umani che tengono conto di abiti e altre variazioni. Il codice è disponibile sul sito web del progetto https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary