Utonia : Vers un encodeur unique pour toutes les nuages de points
Utonia: Toward One Encoder for All Point Clouds
March 3, 2026
Auteurs: Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao
cs.AI
Résumé
Nous rêvons d'un avenir où les nuages de points de tous les domaines pourront s'unir pour former un modèle unique bénéfique à tous. Pour atteindre cet objectif, nous présentons Utonia, une première étape vers l'entraînement d'un encodeur Transformer unique pour nuages de points, en auto-supervision, sur des domaines variés : télédétection, LiDAR extérieur, séquences RGB-D intérieures, modèles CAO centrés sur les objets et nuages de points générés à partir de vidéos RGB uniquement. Malgré leurs géométries d'acquisition, densités et priors distincts, Utonia apprend un espace de représentation cohérent qui se transfère entre les domaines. Cette unification améliore les capacités de perception tout en révélant des comportements émergents intrigants qui n'apparaissent que lorsque les domaines sont entraînés conjointement. Au-delà de la perception, nous observons que les représentations d'Utonia peuvent également bénéficier au raisonnement incarné et multimodal : conditionner des politiques vision-langage-action sur les caractéristiques d'Utonia améliore la manipulation robotique, et leur intégration dans des modèles vision-langage améliore les performances en raisonnement spatial. Nous espérons qu'Utonia pourra constituer une étape vers des modèles de fond pour les données 3D éparses, et soutenir des applications en aval dans la RA/RV, la robotique et la conduite autonome.
English
We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.