MonoArt: Raciocínio Estrutural Progressivo para Reconstrução Articulada 3D Monocular

Resumo

A reconstrução de objetos 3D articulados a partir de uma única imagem requer a inferência conjunta da geometria do objeto, da estrutura das partes e dos parâmetros de movimento com base em evidências visuais limitadas. Uma dificuldade fundamental reside no entrelaçamento entre os indícios de movimento e a estrutura do objeto, o que torna a regressão direta da articulação instável. Os métodos existentes abordam este desafio através de supervisão multi-visual, montagem baseada em recuperação ou geração auxiliar de vídeo, frequentemente sacrificando escalabilidade ou eficiência. Apresentamos o MonoArt, uma estrutura unificada baseada em raciocínio estrutural progressivo. Em vez de prever a articulação diretamente a partir de características da imagem, o MonoArt transforma progressivamente as observações visuais em geometria canónica, representações estruturadas de partes e *embeddings* conscientes do movimento dentro de uma única arquitetura. Este processo de raciocínio estruturado permite uma inferência de articulação estável e interpretável, sem modelos de movimento externos ou *pipelines* multiestágio. Experimentos extensivos no PartNet-Mobility demonstram que o MonoArt alcança um desempenho de ponta tanto na precisão da reconstrução quanto na velocidade de inferência. A estrutura generaliza-se ainda para a manipulação robótica e para a reconstrução de cenas articuladas.

English

Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.

MonoArt: Raciocínio Estrutural Progressivo para Reconstrução Articulada 3D Monocular

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

Resumo

Support