DynaFLIP: Repensando la percepción robótica mediante representación guiada por dinámicas tri-modales

Resumen

La manipulación robótica depende críticamente de una percepción que preserve los aspectos relevantes para la acción de una escena. Sin embargo, la mayoría de los pipelines de aprendizaje robótico se basan en codificadores visuales preentrenados para reconocimiento estático o alineación visión-lenguaje, dejando la comprensión del movimiento a políticas posteriores. Presentamos DynaFLIP, un marco de preentrenamiento multimodal consciente de la dinámica que traslada la comprensión del movimiento aguas arriba hacia la percepción. Construimos tripletes de imágenes, lenguaje y flujo 3D a partir de videos heterogéneos de humanos y robots, y utilizamos estos tripletes como supervisión durante el entrenamiento para moldear un codificador basado únicamente en imágenes. Nuestra idea clave es alentar a las tres modalidades a abarcar un volumen simplex pequeño en el espacio hiperesférico compartido — un volumen simplex más pequeño indica una alineación más fuerte. Para evitar la ambigüedad geométrica y el colapso trivial de la minimización ingenua del volumen, combinamos la minimización del volumen simplex con un regularizador coseno y un objetivo contrastivo. Nuestros análisis muestran que DynaFLIP se enfoca en regiones relevantes para el control, críticas para la manipulación. Las representaciones resultantes, conscientes de la dinámica, sirven como backbones visuales reutilizables y superan consistentemente a las líneas base en diversas políticas posteriores, incluyendo VLA. Validamos esto en diversos entornos simulados y del mundo real, con mejoras que alcanzan el +22.5% en escenarios fuera de distribución. Nuestros resultados sugieren que la generalización robótica mejora cuando las representaciones visuales se entrenan para codificar no solo lo que está presente, sino cómo el mundo cambia bajo la acción.

English

Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.