GST : Corps humain 3D précis à partir d'une seule image avec étalement gaussien de transformateurs.
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Auteurs: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Résumé
La reconstruction de modèles humains 3D réalistes à partir d'images monoculaires présente des applications significatives dans les industries créatives, les interfaces homme-machine et les soins de santé. Nous basions notre travail sur le Splatting Gaussien 3D (3DGS), une représentation de scène composée d'un mélange de Gaussiennes. Prédire de tels mélanges pour un humain à partir d'une seule image d'entrée est un défi, car il s'agit d'une densité non uniforme (avec une relation de type un-à-plusieurs avec les pixels d'entrée) avec des contraintes physiques strictes. En même temps, il doit être flexible pour accommoder une variété de vêtements et de poses. Notre observation clé est que les sommets des maillages humains standardisés (comme SMPL) peuvent fournir une densité adéquate et une position initiale approximative pour les Gaussiennes. Nous pouvons ensuite entraîner un modèle de transformation pour prédire conjointement de relativement petits ajustements à ces positions, ainsi que les attributs des autres Gaussiennes et les paramètres SMPL. Nous montrons empiriquement que cette combinaison (en utilisant uniquement une supervision multi-vue) peut permettre une inférence rapide de modèles humains 3D à partir d'une seule image sans optimisation au moment du test, sans modèles de diffusion coûteux ni supervision de points 3D. Nous montrons également que cela peut améliorer l'estimation de la pose 3D en ajustant mieux les modèles humains qui tiennent compte des vêtements et d'autres variations. Le code est disponible sur le site web du projet https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary