Utonia: Hacia un único codificador para todas las nubes de puntos
Utonia: Toward One Encoder for All Point Clouds
March 3, 2026
Autores: Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao
cs.AI
Resumen
Soñamos con un futuro en el que las nubes de puntos de todos los dominios puedan unirse para dar forma a un único modelo que beneficie a todos ellos. Como paso hacia este objetivo, presentamos Utonia, un primer intento de entrenar un único codificador transformador para nubes de puntos con auto-supervisión en diversos dominios, que abarcan la teledetección, LiDAR exterior, secuencias RGB-D interiores, modelos CAD centrados en objetos y nubes de puntos generadas a partir de vídeos exclusivamente RGB. A pesar de sus distintas geometrías de captura, densidades y distribuciones previas, Utonia aprende un espacio de representación consistente que se transfiere entre dominios. Esta unificación mejora la capacidad de percepción y, al mismo tiempo, revela intrigantes comportamientos emergentes que solo surgen cuando los dominios se entrenan de forma conjunta. Más allá de la percepción, observamos que las representaciones de Utonia también pueden beneficiar el razonamiento encarnado y multimodal: condicionar políticas de visión-lenguaje-acción con las características de Utonia mejora la manipulación robótica, e integrarlas en modelos de visión y lenguaje produce mejoras en el razonamiento espacial. Esperamos que Utonia pueda servir como un paso hacia los modelos fundacionales para datos 3D dispersos y respalde aplicaciones posteriores en realidad aumentada/realidad virtual, robótica y conducción autónoma.
English
We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.