PoLAR: Factorizando amplitud y modo en acciones latentes para el aprendizaje de políticas de robots

Resumen

El preentrenamiento de acciones latentes aprende representaciones de cambios visuales a partir de pares de observaciones, pero los métodos existentes suelen codificar cada transición como una representación única no estructurada que enreda la magnitud y el modo de la transición. Introducimos Acciones Latentes Polares con Estructura Radial (PoLAR), que impone una estructura de dirección radial en las acciones latentes, incentivando que el radio codifique la magnitud de la transición y la dirección retenga el modo de transición. PoLAR utiliza el desplazamiento temporal entre dos observaciones como un proxy débil de la magnitud de la transición, favoreciendo que las acciones latentes de pares de observaciones separados por mayores intervalos temporales ocupen radios más grandes. Materializamos esta estructura en el espacio hiperbólico, cuyo volumen expansivo con el radio ofrece un ajuste natural para modos de transición más diversos a mayores magnitudes. En entornos de preentrenamiento intra-tarea y a gran escala, PoLAR mejora el rendimiento de la política descendente en experimentos robóticos simulados y reales, superando a las líneas base de acciones latentes y a los VLA preentrenados de alto rendimiento. Estos resultados sugieren que la geometría del espacio de acciones latentes es una elección de diseño importante para transferir el preentrenamiento visual al aprendizaje de políticas robóticas descendentes.

English

Latent action pretraining learns representations of visual change from pairs of observations, but existing methods typically encode each transition as a single unstructured representation that entangles transition extent and transition mode. We introduce Polar Latent Actions with Radial structure (PoLAR), which imposes a radial-direction structure on latent actions, encouraging radius to encode transition extent and direction to retain transition mode. PoLAR uses temporal offset between two observations as a weak proxy for transition extent, encouraging latent action from observation pairs separated by larger temporal gaps to occupy larger radii. We instantiate this structure in hyperbolic space, whose expanding volume with radius offers a natural fit for more diverse transition modes at larger extents. Across in-task and large-scale pretraining settings, PoLAR improves downstream policy performance in simulation and real-world robot experiments, outperforming latent action baselines and strong pretrained VLAs. These results suggest that the geometry of the latent action space is an important design choice for transferring visual pretraining to downstream robot policy learning.