GST: Nauwkeurig 3D-menselijk lichaam uit een enkele afbeelding met Gaussische Splatting Transformers
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Auteurs: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Samenvatting
Het reconstrueren van realistische 3D-menselijke modellen uit monocular beelden heeft belangrijke toepassingen in creatieve industrieën, mens-computerinterfaces en gezondheidszorg. Ons werk is gebaseerd op 3D Gaussian Splatting (3DGS), een scène-representatie die bestaat uit een mengsel van Gaussiaanse verdelingen. Het voorspellen van dergelijke mengsels voor een menselijk model vanuit een enkel invoerbeeld is uitdagend, omdat het een niet-uniforme dichtheid betreft (met een veel-op-één relatie met invoerpixels) en strikte fysieke beperkingen heeft. Tegelijkertijd moet het flexibel genoeg zijn om verschillende kleding en houdingen te accommoderen. Onze belangrijkste observatie is dat de hoekpunten van gestandaardiseerde menselijke meshes (zoals SMPL) een adequate dichtheid en een benaderende initiële positie voor Gaussiaanse verdelingen kunnen bieden. Vervolgens kunnen we een transformermodel trainen om gezamenlijk relatief kleine aanpassingen aan deze posities te voorspellen, evenals de andere attributen van de Gaussiaanse verdelingen en de SMPL-parameters. We tonen empirisch aan dat deze combinatie (met alleen multi-view supervisie) snelle inferentie van 3D-menselijke modellen vanuit een enkel beeld kan bereiken zonder testtijdoptimalisatie, dure diffusiemodellen of 3D-puntensupervisie. We laten ook zien dat het de 3D-houdingsschatting kan verbeteren door menselijke modellen beter aan te passen die rekening houden met kleding en andere variaties. De code is beschikbaar op de projectwebsite https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary