DynaFLIP: Neubetrachtung der Robotik-Wahrnehmung durch eine von trimodalen Dynamiken geleitete Repräsentation

Zusammenfassung

Robotermanipulation hängt entscheidend von der Wahrnehmung ab, die die handlungsrelevanten Aspekte einer Szene bewahrt. Dennoch basieren die meisten Lernpipelines für Roboter auf visuellen Encodern, die für statische Erkennung oder Vision-Language-Alignment vortrainiert wurden, sodass das Bewegungsverständnis nachgelagerten Policies überlassen bleibt. Wir stellen DynaFLIP vor, ein dynamikbewusstes multimodales Vortrainingsframework, das das Bewegungsverständnis in die Wahrnehmung vorverlagert. Wir konstruieren Bild-Sprache-3D-Fluss-Tripel aus heterogenen menschlichen und Roboter-Videos und nutzen diese Tripel als Überwachung während des Trainings, um einen rein bildbasierten Encoder zu formen. Unser Hauptgedanke besteht darin, die drei Modalitäten zu einem kleinen Simplexvolumen im gemeinsamen hypersphärischen Raum zu drängen – ein kleineres Simplexvolumen bedeutet eine stärkere Ausrichtung. Um die geometrische Mehrdeutigkeit und den trivialen Kollaps der naiven Volumenminimierung zu vermeiden, kombinieren wir die Simplexvolumen-Minimierung mit einem Cosinus-Regularisierer und einem kontrastiven Ziel. Unsere Analysen zeigen, dass DynaFLIP sich auf steuerungsrelevante Regionen konzentriert, die für die Manipulation entscheidend sind. Die resultierenden dynamikbewussten Repräsentationen dienen als wiederverwendbare visuelle Backbones und übertreffen durchweg verschiedene nachgelagerte Policies, einschließlich VLAs. Wir validieren dies in verschiedenen Simulations- und Realweltszenarien, mit Verbesserungen von bis zu +22,5 % in Out-of-Distribution-Szenarien. Unsere Ergebnisse legen nahe, dass die Generalisierung von Robotern verbessert wird, wenn visuelle Repräsentationen darauf trainiert werden, nicht nur zu codieren, was vorhanden ist, sondern auch, wie sich die Welt unter Aktion verändert.

English

Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.