PoLAR: Faktorisierung von Ausmaß und Modus in latenten Aktionen für das Lernen von Roboter-Policies

Zusammenfassung

Latentes Aktions-Pretraining lernt Repräsentationen visueller Veränderungen aus Beobachtungspaaren, jedoch kodieren bestehende Methoden typischerweise jeden Übergang als eine einzelne unstrukturierte Repräsentation, die Übergangsausmaß und Übergangsmodus vermischt. Wir führen Polare Latente Aktionen mit Radialstruktur (PoLAR) ein, die eine radial-gerichtete Struktur auf latente Aktionen aufprägt, wobei der Radius das Übergangsausmaß und die Richtung den Übergangsmodus kodieren soll. PoLAR nutzt den zeitlichen Abstand zwischen zwei Beobachtungen als schwachen Proxy für das Übergangsausmaß und regt an, dass latente Aktionen aus Beobachtungspaaren mit größeren zeitlichen Abständen größere Radien einnehmen. Wir instanziieren diese Struktur im hyperbolischen Raum, dessen mit dem Radius zunehmendes Volumen eine natürliche Passform für vielfältigere Übergangsmodi bei größeren Ausmaßen bietet. In Aufgaben-internen und groß angelegten Pretraining-Umgebungen verbessert PoLAR die nachgelagerte Policy-Leistung in Simulationen und realen Roboter-Experimenten und übertrifft latente Aktions-Baselines und starke vortrainierte VLAs. Diese Ergebnisse deuten darauf hin, dass die Geometrie des latenten Aktionsraums eine wichtige Designentscheidung für die Übertragung von visuellem Pretraining auf nachgelagertes Robot-Policy-Lernen ist.

English

Latent action pretraining learns representations of visual change from pairs of observations, but existing methods typically encode each transition as a single unstructured representation that entangles transition extent and transition mode. We introduce Polar Latent Actions with Radial structure (PoLAR), which imposes a radial-direction structure on latent actions, encouraging radius to encode transition extent and direction to retain transition mode. PoLAR uses temporal offset between two observations as a weak proxy for transition extent, encouraging latent action from observation pairs separated by larger temporal gaps to occupy larger radii. We instantiate this structure in hyperbolic space, whose expanding volume with radius offers a natural fit for more diverse transition modes at larger extents. Across in-task and large-scale pretraining settings, PoLAR improves downstream policy performance in simulation and real-world robot experiments, outperforming latent action baselines and strong pretrained VLAs. These results suggest that the geometry of the latent action space is an important design choice for transferring visual pretraining to downstream robot policy learning.