UniT: Объединенное обучение геометрии с групповым авторегрессионным трансформером

Аннотация

Современные модели прямого распространения значительно продвинули восприятие геометрии для восстановления плотной трёхмерной структуры по сенсорным наблюдениям. Однако их ключевые возможности остаются раздробленными между несколькими несовместимыми парадигмами, включая восприятие в реальном времени, реконструкцию в автономном режиме, мультимодальную интеграцию, масштабируемость на большие временные горизонты и оценку метрического масштаба. Мы представляем UniT — единую модель, построенную на основе нового Группового авторегрессионного трансформера, которая переосмысливает эти, казалось бы, разрозненные возможности в рамках единого подхода. Ключевая идея заключается в том, чтобы рассматривать группы сенсорных наблюдений как базовые авторегрессионные единицы и предсказывать соответствующие карты точек безанкерным и адаптивным по масштабу способом. Более конкретно, разнообразные конфигурации обзора как в онлайн-, так и в офлайн-режимах естественным образом объединяются в едином процессе групповой авторегрессии. Изменяя размер группы, онлайн-режим работает за несколько авторегрессионных шагов с группами из одного кадра, тогда как офлайн-режим агрегирует группу из нескольких кадров за один прямой проход. Одновременно механизм кэширования KV по типу очереди обеспечивает ограниченную авторегрессионную память на больших временных горизонтах. Это достигается за счёт уменьшения дальних зависимостей от ранних кадров с помощью безанкерного реляционного моделирования, что позволяет отбрасывать устаревшую память на лету. Для улучшения обобщения метрического масштаба на разные сцены в рамках данного подхода вводится адаптивная по масштабу геометрическая функция потерь. Она сочетает относительные геометрические ограничения с частичным членом абсолютного масштаба, неявно регулируя глобальный масштаб и индуцируя постепенный переход от масштабно-инвариантной геометрии к решениям с метрическим масштабом. Вместе с выделенным модулем модального внимания для интеграции вспомогательных модальностей UniT достигает передовых результатов в унифицированном восприятии геометрии, что подтверждено на десяти эталонах, охватывающих семь репрезентативных задач.

English

Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.