ChatPaper.aiChatPaper

ShapeR: Робастное условное генеративное 3D-моделирование на основе случайных изображений

ShapeR: Robust Conditional 3D Shape Generation from Casual Captures

January 16, 2026
Авторы: Yawar Siddiqui, Duncan Frost, Samir Aroudj, Armen Avetisyan, Henry Howard-Jenkins, Daniel DeTone, Pierre Moulon, Qirui Wu, Zhengqin Li, Julian Straub, Richard Newcombe, Jakob Engel
cs.AI

Аннотация

Последние достижения в области генерации 3D-форм демонстрируют впечатляющие результаты, однако большинство существующих методов полагаются на чистые, неокклюдированные и корректно сегментированные входные данные. Такие условия редко выполняются в реальных сценариях. Мы представляем ShapeR — новый подход для условной генерации 3D-форм объектов из произвольно снятых последовательностей изображений. Для заданной последовательности изображений мы используем готовые алгоритмы визуально-инерциального SLAM, 3D-детекции и модели "визуальный вход-текстовый выход" для извлечения, для каждого объекта, набора разреженных точек SLAM, позиционированных многовидовых изображений и машинно-сгенерированных описаний. Трансформер с ректифицированным потоком, обученный эффективно учитывать эти модальности, затем генерирует высококачественные метрические 3D-формы. Для обеспечения устойчивости к проблемам данных, снятых в произвольных условиях, мы применяем ряд методов, включая композиционные аугментации на лету, поэтапную схему обучения на наборах данных уровня объекта и сцены, а также стратегии для работы с фоновым беспорядком. Дополнительно мы представляем новый эталонный набор для оценки, включающий 178 объектов в естественном окружении из 7 реальных сцен с аннотациями геометрии. Эксперименты показывают, что ShapeR значительно превосходит существующие подходы в этой сложной постановке задачи, достигая улучшения расстояния Чемфера в 2.7 раза по сравнению с современными методами.
English
Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.
PDF72January 20, 2026