UniT: Vereinheitlichtes Geometrie-Lernen mit gruppen-autoregressivem Transformer

Zusammenfassung

Aktuelle Feedforward-Modelle haben die Geometriewahrnehmung zur Ableitung dichter 3D-Strukturen aus Sensorbeobachtungen erheblich vorangebracht. Dennoch bleiben ihre wesentlichen Fähigkeiten fragmentiert über mehrere inkompatible Paradigmen, darunter Online-Wahrnehmung, Offline-Rekonstruktion, multimodale Integration, Skalierbarkeit für lange Zeithorizonte und metrische Skalenschätzung. Wir präsentieren UniT, ein einheitliches Modell, das auf einem neuartigen Group Autoregressive Transformer aufbaut und diese scheinbar unterschiedlichen Fähigkeiten in einem einzigen Rahmenwerk zusammenfasst. Die Kernidee besteht darin, Gruppen von Sensorbeobachtungen als grundlegende autoregressive Einheiten zu behandeln und die entsprechenden Punktkarten auf ankerfreie und skalenadaptive Weise vorherzusagen. Konkret werden unterschiedliche Ansichtskonfigurationen sowohl im Online- als auch im Offline-Modus innerhalb eines einzigen Gruppen-Autoregressionsprozesses vereinheitlicht. Durch Variation der Gruppengröße arbeitet der Online-Modus über mehrere autoregressive Schritte mit Einzelbildgruppen, während der Offline-Modus eine Mehrbildgruppe in einem einzigen Vorwärtsdurchlauf aggregiert. Gleichzeitig sorgt ein Warteschlangen-basierter KV-Caching-Mechanismus für einen begrenzten autoregressiven Speicher über lange Zeithorizonte. Dies wird durch die Reduzierung langreichweitiger Abhängigkeiten von frühen Bildern mittels ankerfreier relationaler Modellierung ermöglicht, sodass veraltete Speicherinhalte spontan verworfen werden können. Zur Verbesserung der metrischen Skalengeneralisierung über verschiedene Szenen hinweg wird in diesem Rahmenwerk zusätzlich ein skalenadaptiver Geometrieverlust eingeführt. Dieser koppelt relative geometrische Beschränkungen mit einem partiellen absoluten Skalenterm, reguliert implizit die globale Skala und induziert einen schrittweisen Übergang von skaleninvarianter Geometrie zu metrischen Skalenlösungen. Zusammen mit einem dedizierten modalen Aufmerksamkeitsmodul zur Integration zusätzlicher Modalitäten erreicht UniT eine Spitzenleistung in der einheitlichen Geometriewahrnehmung, wie anhand von zehn Benchmarks aus sieben repräsentativen Aufgaben validiert wurde.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.