MonoArt : Raisonnement structurel progressif pour la reconstruction articulée 3D monoculaire

Résumé

La reconstruction d'objets 3D articulés à partir d'une seule image nécessite d'inférer conjointement la géométrie de l'objet, la structure des parties et les paramètres de mouvement à partir de preuves visuelles limitées. Une difficulté majeure réside dans l'enchevêtrement entre les indices de mouvement et la structure de l'objet, ce qui rend la régression directe de l'articulation instable. Les méthodes existantes abordent ce défi par le biais d'une supervision multi-vues, d'un assemblage par recherche ou d'une génération vidéo auxiliaire, sacrifiant souvent l'évolutivité ou l'efficacité. Nous présentons MonoArt, un cadre unifié fondé sur un raisonnement structurel progressif. Plutôt que de prédire l'articulation directement à partir des caractéristiques de l'image, MonoArt transforme progressivement les observations visuelles en une géométrie canonique, des représentations structurelles des parties et des plongements conscients du mouvement au sein d'une architecture unique. Ce processus de raisonnement structuré permet une inférence d'articulation stable et interprétable sans modèles de mouvement externes ou pipelines multi-étapes. Des expériences approfondies sur PartNet-Mobility démontrent que OM atteint des performances de pointe à la fois en précision de reconstruction et en vitesse d'inférence. Le cadre se généralise en outre à la manipulation robotique et à la reconstruction de scènes articulées.

English

Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.

MonoArt : Raisonnement structurel progressif pour la reconstruction articulée 3D monoculaire

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

Résumé

Support