UniT: Geünificeerd Geometrie Leren met Groep Autoregressieve Transformer

Samenvatting

Recente feed-forward modellen hebben de geometriewaarneming voor het afleiden van dichte 3D-structuren uit sensorwaarnemingen aanzienlijk verbeterd. Echter, de essentiële mogelijkheden blijven gefragmenteerd over meerdere incompatibele paradigma's, waaronder online waarneming, offline reconstructie, multimodale integratie, schaalbaarheid over lange tijdshorizonten en metrische schaalberekening. We presenteren UniT, een uniform model gebouwd op een nieuwe Groeps Autoregressieve Transformer, die deze ogenschijnlijk uiteenlopende mogelijkheden herformuleert binnen één enkel raamwerk. Het kernidee is om groepen sensorwaarnemingen te behandelen als de basale autoregressieve eenheden en de overeenkomstige puntenkaarten te voorspellen op een anker-vrije en schaal-adaptieve manier. Meer specifiek worden diverse configuraties van aanzichten in zowel online als offline omgevingen op natuurlijke wijze verenigd binnen één enkel groepsautoregressieproces. Door de groepsgrootte te variëren, werkt de online modus over meerdere autoregressieve stappen met groepen van één enkel beeld, terwijl de offline modus een meervoudige beeldgroep aggregeert in één enkele voorwaartse passage. Tegelijkertijd zorgt een wachtrij-achtig KV-cachingmechanisme voor een begrensd autoregressief geheugen over lange tijdshorizonten. Dit wordt mogelijk gemaakt door het verminderen van langeafstandsafhankelijkheden van vroege beelden door middel van anker-vrije relationele modellering, waardoor verouderd geheugen ter plekke kan worden verwijderd. Om de generalisatie van metrische schaal over scènes te verbeteren, wordt binnen dit raamwerk een schaal-adaptief geometrieverlies geïntroduceerd. Het koppelt relatieve geometrische beperkingen aan een partiële absolute schaalterm, wat impliciet de globale schaal reguleert en een progressieve overgang induceert van schaal-invariante geometrie naar metrische schaaloplossingen. Samen met een speciale modale aandachtmodule voor het integreren van hulpmodaliteiten, behaalt UniT state-of-the-art prestaties in uniforme geometriewaarneming, zoals gevalideerd op tien benchmarks die zeven representatieve taken beslaan.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.