ARTIC3D: Aprendizado de Formas Articuladas 3D Robustas a partir de Coleções de Imagens Web Ruidosas

Resumo

Estimar formas articuladas 3D, como corpos de animais, a partir de imagens monoculares é intrinsecamente desafiador devido às ambiguidades de ponto de vista da câmera, pose, textura, iluminação, etc. Propomos o ARTIC3D, uma estrutura auto-supervisionada para reconstruir formas 3D por instância a partir de uma coleção esparsa de imagens capturadas em ambientes não controlados. Especificamente, o ARTIC3D é construído sobre uma representação de superfície baseada em esqueleto e é ainda guiado por priors de difusão 2D do Stable Diffusion. Primeiro, aprimoramos as imagens de entrada com oclusões/truncamentos via difusão 2D para obter estimativas de máscaras mais limpas e características semânticas. Segundo, realizamos uma otimização 3D guiada por difusão para estimar forma e textura que sejam de alta fidelidade e fiéis às imagens de entrada. Também propomos uma nova técnica para calcular gradientes em nível de imagem mais estáveis via modelos de difusão em comparação com alternativas existentes. Finalmente, produzimos animações realistas ao ajustar finamente a forma e a textura renderizadas sob transformações rígidas das partes. Avaliações extensas em múltiplos conjuntos de dados existentes, bem como em novas coleções de imagens da web com ruído, oclusões e truncamentos, demonstram que as saídas do ARTIC3D são mais robustas a imagens ruidosas, de maior qualidade em termos de detalhes de forma e textura, e mais realistas quando animadas. Página do projeto: https://chhankyao.github.io/artic3d/

English

Estimating 3D articulated shapes like animal bodies from monocular images is inherently challenging due to the ambiguities of camera viewpoint, pose, texture, lighting, etc. We propose ARTIC3D, a self-supervised framework to reconstruct per-instance 3D shapes from a sparse image collection in-the-wild. Specifically, ARTIC3D is built upon a skeleton-based surface representation and is further guided by 2D diffusion priors from Stable Diffusion. First, we enhance the input images with occlusions/truncation via 2D diffusion to obtain cleaner mask estimates and semantic features. Second, we perform diffusion-guided 3D optimization to estimate shape and texture that are of high-fidelity and faithful to input images. We also propose a novel technique to calculate more stable image-level gradients via diffusion models compared to existing alternatives. Finally, we produce realistic animations by fine-tuning the rendered shape and texture under rigid part transformations. Extensive evaluations on multiple existing datasets as well as newly introduced noisy web image collections with occlusions and truncation demonstrate that ARTIC3D outputs are more robust to noisy images, higher quality in terms of shape and texture details, and more realistic when animated. Project page: https://chhankyao.github.io/artic3d/

ARTIC3D: Aprendizado de Formas Articuladas 3D Robustas a partir de Coleções de Imagens Web Ruidosas

ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image Collections

Resumo

Support