UniT : Apprentissage unifié de la géométrie avec un Transformer autorégressif de groupe

Résumé

Les récents modèles feed-forward ont considérablement amélioré la perception géométrique pour l'inférence de structures 3D denses à partir d'observations sensorielles. Cependant, leurs capacités essentielles restent fragmentées entre des paradigmes incompatibles multiples, incluant la perception en ligne, la reconstruction hors ligne, l'intégration multimodale, la scalabilité à long horizon et l'estimation d'échelle métrique. Nous présentons UniT, un modèle unifié construit autour d'un nouveau Transformateur Auto-Régressif par Groupes, qui reformule ces capacités apparemment disparates au sein d'un cadre unique. L'idée clé est de traiter des groupes d'observations sensorielles comme les unités auto-régressives de base et de prédire les cartes de points correspondantes de manière sans ancrage et adaptable à l'échelle. Plus spécifiquement, les diverses configurations de vues, tant en ligne que hors ligne, sont naturellement unifiées au sein d'un seul processus d'auto-régression par groupes. En faisant varier la taille du groupe, le mode en ligne opère sur plusieurs étapes auto-régressives avec des groupes d'une seule image, tandis que le mode hors ligne agrège un groupe multi-image en un seul passage avant. Parallèlement, un mécanisme de mise en cache KV de type file d'attente garantit une mémoire auto-régressive bornée sur de longs horizons. Ceci est rendu possible en réduisant les dépendances à long terme sur les images précoces grâce à une modélisation relationnelle sans ancrage, permettant ainsi de rejeter à la volée la mémoire obsolète. Pour améliorer la généralisation de l'échelle métrique à travers les scènes, une perte géométrique adaptable à l'échelle est en outre introduite dans ce cadre. Elle couple des contraintes géométriques relatives avec un terme d'échelle absolue partielle, régularisant implicitement l'échelle globale et induisant une transition progressive de la géométrie invariante d'échelle vers des solutions d'échelle métrique. Associé à un module d'attention modal dédié pour intégrer les modalités auxiliaires, UniT atteint des performances de pointe en perception géométrique unifiée, comme validé sur dix bancs d'essai couvrant sept tâches représentatives.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.