ChatPaper.aiChatPaper

MonoArt: Progressives strukturelles Schließen für monokulare artikulierte 3D-Rekonstruktion

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

March 19, 2026
Autoren: Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu
cs.AI

Zusammenfassung

Die Rekonstruktion artikulierter 3D-Objekte aus einem einzelnen Bild erfordert die gemeinsame Inferenz von Objektgeometrie, Teilstruktur und Bewegungsparametern aus begrenzten visuellen Informationen. Eine zentrale Schwierigkeit liegt in der Verflechtung von Bewegungshinweisen und Objektstruktur, was eine direkte Regression der Artikulation instabil macht. Bestehende Methoden begegnen dieser Herausforderung durch Multi-View-Supervision, retrievalbasierte Assemblierung oder die Generierung von Hilfsvideos, was oft mit Einbußen bei der Skalierbarkeit oder Effizienz einhergeht. Wir stellen MonoArt vor, einen einheitlichen Rahmen, der auf progressiver struktureller Reasoning basiert. Anstatt die Artikulation direkt aus Bildmerkmalen vorherzusagen, transformiert MonoArt visuelle Beobachtungen schrittweise innerhalb einer einzigen Architektur in kanonische Geometrie, strukturierte Teilrepräsentationen und bewegungssensitive Embeddings. Dieser strukturierte Reasoning-Prozess ermöglicht eine stabile und interpretierbare Artikulationsinferenz ohne externe Bewegungstemplates oder mehrstufige Pipelines. Umfangreiche Experimente auf PartNet-Mobility zeigen, dass MonoArt state-of-the-art Leistung sowohl in der Rekonstruktionsgenauigkeit als auch in der Inferenzgeschwindigkeit erreicht. Das Framework generalisiert zudem auf robotergestützte Manipulation und die Rekonstruktion artikulierter Szenen.
English
Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.
PDF282March 21, 2026