ARTIC3D: Aprendizaje de Formas Articuladas 3D Robustas a partir de Colecciones de Imágenes Web Ruidosas
ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections
June 7, 2023
Autores: Chun-Han Yao, Amit Raj, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani
cs.AI
Resumen
Estimar formas articuladas en 3D, como cuerpos de animales, a partir de imágenes monoculares es inherentemente desafiante debido a las ambigüedades del punto de vista de la cámara, la pose, la textura, la iluminación, etc. Proponemos ARTIC3D, un marco de trabajo autosupervisado para reconstruir formas 3D por instancia a partir de una colección dispersa de imágenes en entornos no controlados. Específicamente, ARTIC3D se basa en una representación de superficie basada en esqueletos y está guiado por prioridades de difusión 2D de Stable Diffusion. Primero, mejoramos las imágenes de entrada con oclusiones/truncamientos mediante difusión 2D para obtener estimaciones de máscaras más limpias y características semánticas. Segundo, realizamos una optimización 3D guiada por difusión para estimar la forma y la textura, logrando resultados de alta fidelidad y fieles a las imágenes de entrada. También proponemos una técnica novedosa para calcular gradientes a nivel de imagen más estables mediante modelos de difusión en comparación con alternativas existentes. Finalmente, producimos animaciones realistas ajustando la forma y la textura renderizadas bajo transformaciones rígidas de las partes. Evaluaciones exhaustivas en múltiples conjuntos de datos existentes, así como en nuevas colecciones de imágenes web ruidosas con oclusiones y truncamientos, demuestran que los resultados de ARTIC3D son más robustos frente a imágenes ruidosas, de mayor calidad en términos de detalles de forma y textura, y más realistas cuando se animan. Página del proyecto: https://chhankyao.github.io/artic3d/
English
Estimating 3D articulated shapes like animal bodies from monocular images is
inherently challenging due to the ambiguities of camera viewpoint, pose,
texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to
reconstruct per-instance 3D shapes from a sparse image collection in-the-wild.
Specifically, ARTIC3D is built upon a skeleton-based surface representation and
is further guided by 2D diffusion priors from Stable Diffusion. First, we
enhance the input images with occlusions/truncation via 2D diffusion to obtain
cleaner mask estimates and semantic features. Second, we perform
diffusion-guided 3D optimization to estimate shape and texture that are of
high-fidelity and faithful to input images. We also propose a novel technique
to calculate more stable image-level gradients via diffusion models compared to
existing alternatives. Finally, we produce realistic animations by fine-tuning
the rendered shape and texture under rigid part transformations. Extensive
evaluations on multiple existing datasets as well as newly introduced noisy web
image collections with occlusions and truncation demonstrate that ARTIC3D
outputs are more robust to noisy images, higher quality in terms of shape and
texture details, and more realistic when animated. Project page:
https://chhankyao.github.io/artic3d/