GST: Präziser 3D-Menschlicher Körper aus einem einzigen Bild mit Gaussischem Splatting-Transformator
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers
September 6, 2024
Autoren: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI
Zusammenfassung
Die Rekonstruktion realistischer 3D-Menschemodelle aus monokularen Bildern hat bedeutende Anwendungen in kreativen Branchen, Mensch-Computer-Schnittstellen und im Gesundheitswesen. Unsere Arbeit basiert auf 3D-Gauß-Splatting (3DGS), einer Szenendarstellung, die aus einer Mischung von Gaußschen Funktionen besteht. Die Vorhersage solcher Mischungen für einen Menschen aus einem einzelnen Eingabebild ist herausfordernd, da es sich um eine nicht-uniforme Dichte handelt (mit einer Viel-zu-Eins-Beziehung zu Eingabepixeln) mit strengen physikalischen Einschränkungen. Gleichzeitig muss sie flexibel sein, um eine Vielzahl von Kleidungsstücken und Posen zu berücksichtigen. Unsere Schlüsselbeobachtung ist, dass die Eckpunkte standardisierter menschlicher Gitter (wie SMPL) eine angemessene Dichte und eine ungefähre Ausgangsposition für Gaußsche Funktionen liefern können. Wir können dann ein Transformer-Modell trainieren, um gemeinsam vergleichsweise kleine Anpassungen an diesen Positionen vorherzusagen, sowie die Attribute der anderen Gaußschen Funktionen und die SMPL-Parameter. Wir zeigen empirisch, dass diese Kombination (unter Verwendung nur von Multi-View-Überwachung) eine schnelle Inferenz von 3D-Menschmodellen aus einem einzigen Bild ohne Optimierung zur Testzeit, teure Diffusionsmodelle oder 3D-Punkte-Überwachung erreichen kann. Wir zeigen auch, dass sie die 3D-Posenschätzung verbessern kann, indem sie besser passende menschliche Modelle berücksichtigt, die Kleidung und andere Variationen berücksichtigen. Der Code ist auf der Projektwebsite https://abdullahamdi.com/gst/ verfügbar.
English
Reconstructing realistic 3D human models from monocular images has
significant applications in creative industries, human-computer interfaces, and
healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene
representation composed of a mixture of Gaussians. Predicting such mixtures for
a human from a single input image is challenging, as it is a non-uniform
density (with a many-to-one relationship with input pixels) with strict
physical constraints. At the same time, it needs to be flexible to accommodate
a variety of clothes and poses. Our key observation is that the vertices of
standardized human meshes (such as SMPL) can provide an adequate density and
approximate initial position for Gaussians. We can then train a transformer
model to jointly predict comparatively small adjustments to these positions, as
well as the other Gaussians' attributes and the SMPL parameters. We show
empirically that this combination (using only multi-view supervision) can
achieve fast inference of 3D human models from a single image without test-time
optimization, expensive diffusion models, or 3D points supervision. We also
show that it can improve 3D pose estimation by better fitting human models that
account for clothes and other variations. The code is available on the project
website https://abdullahamdi.com/gst/ .Summary
AI-Generated Summary