ShapeR : Génération robuste de formes 3D conditionnelles à partir de captures occasionnelles
ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
January 16, 2026
papers.authors: Yawar Siddiqui, Duncan Frost, Samir Aroudj, Armen Avetisyan, Henry Howard-Jenkins, Daniel DeTone, Pierre Moulon, Qirui Wu, Zhengqin Li, Julian Straub, Richard Newcombe, Jakob Engel
cs.AI
papers.abstract
Les progrès récents en génération de formes 3D ont produit des résultats impressionnants, mais la plupart des méthodes existantes reposent sur des entrées propres, non occluses et bien segmentées. De telles conditions sont rarement rencontrées dans les scénarios réels. Nous présentons ShapeR, une nouvelle approche pour la génération conditionnelle de formes d'objets 3D à partir de séquences capturées de manière informelle. Étant donné une séquence d'images, nous exploitons des algorithmes SLAM visio-inertiels prêts à l'emploi, des algorithmes de détection 3D et des modèles vision-langage pour extraire, pour chaque objet, un ensemble de points SLAM épars, des images multi-vues posées et des légendes générées automatiquement. Un transformeur à flux rectifié, entraîné à conditionner efficacement ces modalités, génère ensuite des formes 3D métriques de haute fidélité. Pour garantir la robustesse face aux défis des données capturées de manière informelle, nous employons diverses techniques, notamment des augmentations compositionnelles à la volée, un schéma d'entraînement progressif couvrant des jeux de données au niveau objet et scène, et des stratégies pour gérer l'encombrement de l'arrière-plan. De plus, nous introduisons un nouveau benchmark d'évaluation comprenant 178 objets en conditions réelles répartis sur 7 scènes du monde réel, avec des annotations géométriques. Les expériences montrent que ShapeR surpasse significativement les approches existantes dans ce cadre exigeant, obtenant une amélioration d'un facteur 2,7 de la distance de Chamfer par rapport à l'état de l'art.
English
Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.