Трехмерное соответствие на уровне категории в пространстве камеры с помощью морфируемых объектных априоров

Аннотация

Понимание трехмерных объектов по изображениям является фундаментальной задачей для робототехники и приложений AR/VR. Хотя недавние работы достигли прогресса в оценивании позы на уровне категорий, существующие представления не позволяют улавливать детальную семантику, необходимую для рассуждений о частях объектов, их функциях и взаимодействиях. В данной работе мы исследуем категорийное трехмерное соответствие в пространстве камеры — предсказание по одному изображению трехмерных точек, согласованных между экземплярами внутри категории, — и показываем, что такое соответствие может возникать без явного обучения на основе меток соответствия, благодаря изучению общего морфируемого априорного представления объекта. Для содействия исследованиям в этом направлении мы представляем HouseCorr3D — первый крупномасштабный бенчмарк для монокулярного категорийного трехмерного соответствия, содержащий 178 тыс. изображений из 50 категорий бытовых объектов, 280 уникальных экземпляров и аннотации трехмерных ключевых точек непосредственно на CAD-моделях. Важно, что HouseCorr3D предоставляет амодальные метки соответствия для окклюдированных областей и явные аннотации симметрии, что устраняет ключевые ограничения существующих наборов данных. Кроме того, мы предлагаем метод Morpheus, который обучает морфируемые категорийные априорные представления формы путем разделения канонической формы, деформации и позы объекта. Благодаря этой общей канонической основе неявно возникают семантически значимые трехмерные соответствия в пространстве камеры. Эти возникающие трехмерные соответствия устанавливают новый передовой уровень на бенчмарке HouseCorr3D, демонстрируя, что семантическое понимание трехмерных объектов может возникать без прямого обучения на основе меток соответствия. Данные и код доступны по адресу https://github.com/GenIntel/HouseCorr3D.

English

Understanding 3D objects from images is fundamental to robotics and AR/VR applications. While recent work has made progress in category-level pose estimation, current representations fail to capture the fine-grained semantics needed for reasoning about object parts, functions, and interactions. In this work, we study category-level 3D correspondence in camera space -- predicting, from a single image, 3D locations that remain consistent across instances within a category -- and show that it can emerge without explicit correspondence supervision by learning a shared morphable object prior. To enable research in this direction, we introduce HouseCorr3D, the first large-scale benchmark for monocular category-level 3D correspondence with 178k images across 50 household object categories, 280 unique instances, and 3D keypoint annotations directly on CAD models. Crucially, HouseCorr3D provides amodal correspondence labels for occluded regions and explicit symmetry annotations, addressing key limitations of existing datasets. We further propose Morpheus, a method that learns morphable category-level shape priors by disentangling canonical shape, deformation, and object pose. Through this shared canonical grounding, semantically meaningful 3D correspondences in camera space emerge implicitly. These emerging 3D correspondences set a new state of the art on HouseCorr3D, demonstrating that semantic 3D object understanding can arise without direct correspondence supervision. Data and code are publicly available at https://github.com/GenIntel/HouseCorr3D.