유토니아: 모든 포인트 클라우드를 위한 단일 인코더 구축
Utonia: Toward One Encoder for All Point Clouds
March 3, 2026
저자: Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao
cs.AI
초록
우리는 모든 분야의 포인트 클라우드가 하나의 모델로 통합되어 모두에게 혜택을 주는 미래를 꿈꿉니다. 이를 위한 첫걸음으로, 우리는 다양한 영역을 아우르는 단일 자기 지도 점변환기 인코더를 훈련하는 첫 번째 시도인 Utonia를 제안합니다. 이는 원격 탐사, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 그리고 RGB 영상만으로부터 생성된 포인트 클라우드에 이릅니다. 서로 다른 센싱 기하학, 밀도, 사전 지식에도 불구하고, Utonia는 도메인 간에 일관된 표현 공간을 학습합니다. 이러한 통합은 인식 능력을 향상시키면서, 여러 도메인을 함께 훈련했을 때만 나타나는 흥미로운 창발적 행동을 보여줍니다. 인식을 넘어, Utonia 표현은 구체적 및 다중 모드 추론에도 도움이 됩니다: 시각-언어-행동 정책에 Utonia 특징을 조건으로 부여하면 로봇 매니퓰레이션이 개선되며, 이를 시각-언어 모델에 통합하면 공간 추론에서 성능 향상을 얻습니다. 우리는 Utonia가 희소 3D 데이터를 위한 파운데이션 모델로 나아가는 디딤돌이 되어 AR/VR, 로봇공학, 자율 주행 등의 다운스트림 애플리케이션을 지원하기를 바랍니다.
English
We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.