Utonia: Op weg naar één encoder voor alle puntenwolken

Samenvatting

Wij dromen van een toekomst waarin puntenwolken uit alle domeinen samenkomen om één enkel model te vormen dat iedereen ten goede komt. Als stap naar dit doel presenteren wij Utonia, een eerste aanzet om een enkele zelf-gesuperviseerde punten-transformer-encoder te trainen over diverse domeinen heen, waaronder remote sensing, outdoor LiDAR, indoor RGB-D-sequenties, objectgecentreerde CAD-modellen, en puntenwolken gegenereerd uit uitsluitend RGB-video's. Ondanks hun verschillende meetgeometrieën, dichtheden en a priori kennis, leert Utonia een consistente representatieruimte die overdraagbaar is tussen domeinen. Deze unificatie verbetert de perceptiecapaciteit en onthult tegelijkertijd intrigerend emergent gedrag dat alleen ontstaat wanneer domeinen gezamenlijk worden getraind. Naast perceptie observeren we dat Utonia-representaties ook voordelen kunnen bieden voor embodied en multimodaal redeneren: het conditioneren van visie-taal-actie-policies op Utonia-features verbetert robotmanipulatie, en de integratie ervan in visie-taalmodellen levert winst op bij ruimtelijk redeneren. Wij hopen dat Utonia kan dienen als een stap richting foundation models voor sparse 3D-data, en downstream-toepassingen in AR/VR, robotica en autonoom rijden kan ondersteunen.

English

We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.

Utonia: Op weg naar één encoder voor alle puntenwolken

Utonia: Toward One Encoder for All Point Clouds

Samenvatting

Support