DynaFLIP: Repensando a Percepção Robótica via Representação Guiada por Dinâmicas Tri-Modais

Resumo

A manipulação robótica depende criticamente de uma percepção que preserve os aspectos relevantes para a ação de uma cena. No entanto, a maioria dos pipelines de aprendizado robótico é construída sobre codificadores visuais pré-treinados para reconhecimento estático ou alinhamento visão-linguagem, deixando a compreensão do movimento para políticas downstream. Apresentamos o DynaFLIP, uma estrutura de pré-treinamento multimodal consciente da dinâmica que desloca a compreensão do movimento para upstream, na percepção. Construímos tripletos de imagem-linguagem-fluxo 3D a partir de vídeos heterogêneos de humanos e robôs, e usamos esses tripletos como supervisão durante o treinamento para moldar um codificador puramente baseado em imagem. Nossa ideia central é incentivar que as três modalidades ocupem um pequeno volume de simplex no espaço hiperesférico compartilhado — um volume de simplex menor indicando um alinhamento mais forte. Para evitar a ambiguidade geométrica e o colapso trivial da minimização ingênua de volume, combinamos a minimização do volume do simplex com um regularizador cosseno e um objetivo contrastivo. Nossas análises mostram que o DynaFLIP se concentra em regiões relevantes para o controle, cruciais para a manipulação. As representações conscientes da dinâmica resultantes servem como backbones visuais reutilizáveis e superam consistentemente as linhas de base em diversas políticas downstream, incluindo VLAs. Validamos isso em diversas configurações simuladas e do mundo real, com ganhos de até +22,5% em cenários fora da distribuição. Nossos resultados sugerem que a generalização de robôs melhora quando as representações visuais são treinadas para codificar não apenas o que está presente, mas como o mundo muda sob ação.

English

Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.