GST: Cuerpo humano 3D preciso a partir de una sola imagen con esparcimiento gaussiano de transformadores.
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Autores: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Resumen
La reconstrucción de modelos humanos 3D realistas a partir de imágenes monoculares tiene aplicaciones significativas en industrias creativas, interfaces humano-computadora y atención médica. Basamos nuestro trabajo en el Splatting Gaussiano 3D (3DGS), una representación de escena compuesta por una mezcla de gaussianas. Predecir tales mezclas para un humano a partir de una única imagen de entrada es un desafío, dado que es una densidad no uniforme (con una relación de muchos a uno con los píxeles de entrada) con estrictas restricciones físicas. Al mismo tiempo, debe ser flexible para adaptarse a una variedad de prendas y poses. Nuestra observación clave es que los vértices de mallas humanas estandarizadas (como SMPL) pueden proporcionar una densidad adecuada y una posición inicial aproximada para las gaussianas. Luego podemos entrenar un modelo transformador para predecir conjuntamente ajustes relativamente pequeños a estas posiciones, así como los atributos de las otras gaussianas y los parámetros de SMPL. Mostramos empíricamente que esta combinación (utilizando solo supervisión multi-vista) puede lograr una inferencia rápida de modelos humanos 3D a partir de una sola imagen sin optimización en tiempo de prueba, modelos de difusión costosos o supervisión de puntos 3D. También demostramos que puede mejorar la estimación de la pose 3D al ajustar mejor los modelos humanos que tienen en cuenta prendas y otras variaciones. El código está disponible en el sitio web del proyecto https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary