MonoArt: Ragionamento Strutturale Progressivo per la Ricostruzione Articolata 3D Monoculare
MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction
March 19, 2026
Autori: Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu
cs.AI
Abstract
La ricostruzione di oggetti 3D articolati a partire da una singola immagine richiede l'inferenza congiunta della geometria dell'oggetto, della struttura delle parti e dei parametri di movimento a partire da evidenze visive limitate. Una difficoltà chiave risiede nell'intreccio tra i segnali di movimento e la struttura dell'oggetto, il che rende instabile la regressione diretta dell'articolazione. I metodi esistenti affrontano questa sfida attraverso supervisione multi-vista, assemblaggio basato sul retrieval o generazione di video ausiliari, spesso sacrificando scalabilità o efficienza. Presentiamo MonoArt, un framework unificato basato su un ragionamento strutturale progressivo. Invece di prevedere l'articolazione direttamente dalle caratteristiche dell'immagine, MonoArt trasforma progressivamente le osservazioni visive in geometria canonica, rappresentazioni strutturate delle parti e embedding consapevoli del movimento all'interno di un'unica architettura. Questo processo di ragionamento strutturato consente un'inferenza dell'articolazione stabile e interpretabile senza modelli di movimento esterni o pipeline multi-stadio. Esperimenti estensivi su PartNet-Mobility dimostrano che MonoArt raggiunge prestazioni all'avanguardia sia in accuratezza di ricostruzione che in velocità di inferenza. Il framework si generalizza ulteriormente alla manipolazione robotica e alla ricostruzione di scene articolate.
English
Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.