PoLAR : Factorisation de l'étendue et du mode dans les actions latentes pour l'apprentissage de politiques robotiques

Résumé

Le pré-entraînement d'actions latentes apprend des représentations du changement visuel à partir de paires d'observations, mais les méthodes existantes codent généralement chaque transition comme une représentation unique non structurée qui entremêle l'étendue et le mode de la transition. Nous introduisons les Actions Latentes Polaires à Structure Radiale (PoLAR), qui imposent une structure radiale-directionnelle aux actions latentes, encourageant le rayon à coder l'étendue de la transition et la direction à retenir le mode de transition. PoLAR utilise le décalage temporel entre deux observations comme un proxy faible de l'étendue de la transition, encourageant les actions latentes issues de paires d'observations séparées par des écarts temporels plus grands à occuper des rayons plus grands. Nous instancions cette structure dans l'espace hyperbolique, dont le volume croissant avec le rayon offre un ajustement naturel pour des modes de transition plus diversifiés à des étendues plus grandes. Que ce soit dans des contextes de pré-entraînement intra-tâche ou à grande échelle, PoLAR améliore les performances des politiques en aval lors d'expériences en simulation et sur des robots réels, surpassant les approches de base utilisant des actions latentes ainsi que les modèles VLA pré-entraînés performants. Ces résultats suggèrent que la géométrie de l'espace des actions latentes est un choix de conception important pour transférer le pré-entraînement visuel à l'apprentissage de politiques robotiques en aval.

English

Latent action pretraining learns representations of visual change from pairs of observations, but existing methods typically encode each transition as a single unstructured representation that entangles transition extent and transition mode. We introduce Polar Latent Actions with Radial structure (PoLAR), which imposes a radial-direction structure on latent actions, encouraging radius to encode transition extent and direction to retain transition mode. PoLAR uses temporal offset between two observations as a weak proxy for transition extent, encouraging latent action from observation pairs separated by larger temporal gaps to occupy larger radii. We instantiate this structure in hyperbolic space, whose expanding volume with radius offers a natural fit for more diverse transition modes at larger extents. Across in-task and large-scale pretraining settings, PoLAR improves downstream policy performance in simulation and real-world robot experiments, outperforming latent action baselines and strong pretrained VLAs. These results suggest that the geometry of the latent action space is an important design choice for transferring visual pretraining to downstream robot policy learning.