PoLAR: Факторизация степени и режима в латентных действиях для обучения политике робота

Аннотация

Латентное предварительное обучение действиям позволяет изучать представления визуальных изменений на основе пар наблюдений, однако существующие методы обычно кодируют каждый переход в виде единого неструктурированного представления, смешивающего степень и режим перехода. Мы предлагаем полярные латентные действия с радиальной структурой (PoLAR), которая накладывает радиально-направленную структуру на латентные действия, побуждая радиус кодировать степень перехода, а направление — режим перехода. PoLAR использует временное расстояние между двумя наблюдениями в качестве слабой аппроксимации степени перехода, стимулируя латентное действие из пар наблюдений, разделённых большими временными интервалами, занимать большие радиусы. Мы реализуем эту структуру в гиперболическом пространстве, чей расширяющийся объём с увеличением радиуса естественным образом подходит для более разнообразных режимов перехода при больших степенях. В условиях внутризадачного и крупномасштабного предварительного обучения PoLAR улучшает производительность нижележащих политик в симуляционных и реальных робототехнических экспериментах, превосходя базовые алгоритмы латентных действий и сильные предобученные VLA. Эти результаты свидетельствуют о том, что геометрия пространства латентных действий является важным проектным решением для переноса визуального предварительного обучения на последующее обучение робототехнических политик.

English

Latent action pretraining learns representations of visual change from pairs of observations, but existing methods typically encode each transition as a single unstructured representation that entangles transition extent and transition mode. We introduce Polar Latent Actions with Radial structure (PoLAR), which imposes a radial-direction structure on latent actions, encouraging radius to encode transition extent and direction to retain transition mode. PoLAR uses temporal offset between two observations as a weak proxy for transition extent, encouraging latent action from observation pairs separated by larger temporal gaps to occupy larger radii. We instantiate this structure in hyperbolic space, whose expanding volume with radius offers a natural fit for more diverse transition modes at larger extents. Across in-task and large-scale pretraining settings, PoLAR improves downstream policy performance in simulation and real-world robot experiments, outperforming latent action baselines and strong pretrained VLAs. These results suggest that the geometry of the latent action space is an important design choice for transferring visual pretraining to downstream robot policy learning.