UniT: Aprendizado de Geometria Unificado com Transformer Autoregressivo de Grupo

Resumo

Modelos feed-forward recentes avançaram significativamente a percepção geométrica para inferir estruturas 3D densas a partir de observações de sensores. No entanto, suas capacidades essenciais permanecem fragmentadas em diversos paradigmas incompatíveis, incluindo percepção online, reconstrução offline, integração multimodal, escalabilidade de longo horizonte e estimativa de escala métrica. Apresentamos o UniT, um modelo unificado construído sobre um novo Transformador Autoregressivo de Grupo, que reformula essas capacidades aparentemente díspares dentro de um único arcabouço. A ideia chave é tratar grupos de observações de sensores como as unidades autoregressivas básicas e predizer os mapas de pontos correspondentes de maneira sem âncoras e adaptativa à escala. Mais especificamente, diversas configurações de vista, tanto em cenários online quanto offline, são naturalmente unificadas em um único processo de autoregressão em grupo. Ao variar o tamanho do grupo, o modo online opera sobre múltiplos passos autoregressivos com grupos de quadro único, enquanto o modo offline agrega um grupo de múltiplos quadros em uma única passagem direta. Enquanto isso, um mecanismo de cache KV em estilo de fila garante memória autoregressiva limitada ao longo de horizontes longos. Isso é possibilitado pela redução de dependências de longo alcance em quadros iniciais através da modelagem relacional sem âncoras, permitindo que a memória desatualizada seja descartada dinamicamente. Para melhorar a generalização de escala métrica entre cenas, uma perda geométrica adaptativa à escala é ainda introduzida dentro deste arcabouço. Ela acopla restrições geométricas relativas com um termo de escala absoluta parcial, regularizando implicitamente a escala global e induzindo uma transição progressiva da geometria invariante à escala para soluções de escala métrica. Juntamente com um módulo de atenção modal dedicado para integrar modalidades auxiliares, o UniT alcança desempenho de estado da arte em percepção geométrica unificada, conforme validado em dez referenciais abrangendo sete tarefas representativas.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.