DynaFLIP : Repenser la perception robotique via la représentation guidée par la dynamique tri-modale

Résumé

La manipulation robotique dépend essentiellement d'une perception qui préserve les aspects d'une scène pertinents pour l'action. Pourtant, la plupart des pipelines d'apprentissage robotique reposent sur des encodeurs visuels pré-entraînés pour la reconnaissance statique ou l'alignement vision-langage, laissant la compréhension du mouvement aux politiques aval. Nous présentons DynaFLIP, un cadre de pré-entraînement multimodal sensible à la dynamique qui remonte la compréhension du mouvement en amont dans la perception. Nous construisons des triplets image-langage-flux 3D à partir de vidéos hétérogènes d'humains et de robots, et utilisons ces triplets comme supervision pendant l'entraînement pour façonner un encodeur basé uniquement sur les images. Notre idée clé est d'encourager les trois modalités à couvrir un petit volume de simplexe dans l'espace hypersphérique partagé — un volume de simplexe plus petit indiquant un alignement plus fort. Pour éviter l'ambiguïté géométrique et l'effondrement trivial d'une minimisation naïve du volume, nous combinons la minimisation du volume du simplexe avec un régularisateur cosinus et un objectif contrastif. Nos analyses montrent que DynaFLIP se concentre sur les régions pertinentes pour le contrôle, essentielles à la manipulation. Les représentations résultantes, sensibles à la dynamique, servent de backbones visuels réutilisables et surpassent systématiquement les références dans diverses politiques aval, y compris les VLAs. Nous validons cela dans divers environnements simulés et réels, avec des gains atteignant +22,5 % dans des scénarios hors distribution. Nos résultats suggèrent que la généralisation des robots s'améliore lorsque les représentations visuelles sont entraînées à encoder non seulement ce qui est présent, mais aussi comment le monde change sous l'effet des actions.

English

Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.