UniT: Aprendizaje Unificado de Geometría con Transformador Autoregresivo de Grupo

Resumen

Los modelos feed-forward recientes han avanzado significativamente en la percepción geométrica para inferir estructuras 3D densas a partir de observaciones de sensores. Sin embargo, sus capacidades esenciales permanecen fragmentadas en paradigmas incompatibles, incluyendo la percepción en línea, la reconstrucción fuera de línea, la integración multimodal, la escalabilidad a largo plazo y la estimación de escala métrica. Presentamos UniT, un modelo unificado basado en un novedoso Transformer Autoregresivo de Grupo, que reformula estas capacidades aparentemente dispares dentro de un único marco. La idea clave es tratar grupos de observaciones de sensores como unidades autoregresivas básicas y predecir los mapas de puntos correspondientes de manera libre de anclas y adaptativa a la escala. Más específicamente, las diversas configuraciones de vistas tanto en entornos en línea como fuera de línea se unifican naturalmente en un solo proceso de autoregresión de grupo. Al variar el tamaño del grupo, el modo en línea opera en múltiples pasos autoregresivos con grupos de un solo fotograma, mientras que el modo fuera de línea agrega un grupo de múltiples fotogramas en una sola pasada directa. Al mismo tiempo, un mecanismo de almacenamiento en caché KV estilo cola asegura una memoria autoregresiva acotada en horizontes largos. Esto se logra reduciendo las dependencias de largo alcance en fotogramas tempranos mediante un modelado relacional libre de anclas, permitiendo así que la memoria obsoleta se descarte sobre la marcha. Para mejorar la generalización de la escala métrica entre escenas, se introduce además una pérdida de geometría adaptativa a la escala dentro de este marco. Esta acopla restricciones geométricas relativas con un término de escala absoluta parcial, regularizando implícitamente la escala global e induciendo una transición progresiva desde la geometría invariante a la escala hasta soluciones de escala métrica. Junto con un módulo de atención modal dedicado para integrar modalidades auxiliares, UniT logra un rendimiento de última generación en percepción geométrica unificada, validado en diez puntos de referencia que abarcan siete tareas representativas.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.