MonoArt: Прогрессивное структурное обоснование для моноокулярного артикулированного 3D-реконструирования

Аннотация

Восстановление сочлененных трехмерных объектов по одному изображению требует совместного вывода геометрии объекта, структуры частей и параметров движения на основе ограниченных визуальных данных. Ключевая сложность заключается во взаимосвязи между сигналами движения и структурой объекта, что делает прямую регрессию сочленений неустойчивой. Существующие методы решают эту проблему с помощью многовидового контроля, сборки на основе поиска или генерации вспомогательных видео, часто жертвуя масштабируемостью или эффективностью. Мы представляем MonoArt - унифицированную структуру, основанную на прогрессивном структурном анализе. Вместо прямого предсказания сочленений по признакам изображения, MonoArt постепенно преобразует визуальные наблюдения в каноническую геометрию, структурированные представления частей и учитывающие движение эмбеддинги в рамках единой архитектуры. Этот структурированный процесс анализа обеспечивает стабильный и интерпретируемый вывод сочленений без внешних шаблонов движения или многоэтапных конвейеров. Обширные эксперименты на PartNet-Mobility демонстрируют, что OM достигает передовых показателей как по точности реконструкции, так и по скорости вывода. Структура также обобщается на задачи роботизированного манипулирования и реконструкции сочлененных сцен.

English

Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.

MonoArt: Прогрессивное структурное обоснование для моноокулярного артикулированного 3D-реконструирования

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

Аннотация

Support