ChatPaper.aiChatPaper

GST: Точное трехмерное изображение человеческого тела по одному изображению с использованием гауссовского сглаживания трансформеров

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

September 6, 2024
Авторы: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI

Аннотация

Воссоздание реалистичных трехмерных моделей человека из монокулярных изображений имеет значительные применения в креативных отраслях, человеко-компьютерных интерфейсах и здравоохранении. Мы основываем нашу работу на трехмерном Гауссовом сплетении (3DGS), представлении сцены, состоящем из смеси гауссианов. Предсказание таких смесей для человека по одному входному изображению является сложной задачей, поскольку это неравномерная плотность (со многими-к-одному соотношением с входными пикселями) с жесткими физическими ограничениями. В то же время она должна быть гибкой для адаптации к различной одежде и позам. Нашим ключевым наблюдением является то, что вершины стандартизированных трехмерных сеток человека (например, SMPL) могут обеспечить достаточную плотность и приблизительное начальное положение для гауссианов. Затем мы можем обучить модель трансформера для совместного предсказания относительно небольших коррекций к этим положениям, а также атрибутов других гауссианов и параметров SMPL. Мы показываем эмпирически, что эта комбинация (используя только многопредставленное обучение) может достичь быстрого вывода трехмерных моделей человека из одного изображения без оптимизации во время теста, дорогих моделей диффузии или трехмерного контроля. Мы также показываем, что это может улучшить оценку трехмерной позы путем лучшего приспособления трехмерных моделей человека, учитывающих одежду и другие вариации. Код доступен на веб-сайте проекта https://abdullahamdi.com/gst/.
English
Reconstructing realistic 3D human models from monocular images has significant applications in creative industries, human-computer interfaces, and healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene representation composed of a mixture of Gaussians. Predicting such mixtures for a human from a single input image is challenging, as it is a non-uniform density (with a many-to-one relationship with input pixels) with strict physical constraints. At the same time, it needs to be flexible to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate density and approximate initial position for Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other Gaussians' attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve fast inference of 3D human models from a single image without test-time optimization, expensive diffusion models, or 3D points supervision. We also show that it can improve 3D pose estimation by better fitting human models that account for clothes and other variations. The code is available on the project website https://abdullahamdi.com/gst/ .

Summary

AI-Generated Summary

PDF152November 16, 2024