DynaFLIP: Переосмысление восприятия в робототехнике через представление, управляемое трехмодальной динамикой

Аннотация

Роботизированное манипулирование критически зависит от восприятия, которое сохраняет релевантные для действия аспекты сцены. Однако большинство конвейеров обучения роботов построены на основе визуальных кодировщиков, предварительно обученных для статического распознавания или выравнивания зрения и языка, оставляя понимание движения последующим политикам. Мы представляем DynaFLIP — учитывающую динамику мультимодальную структуру предварительного обучения, которая перемещает понимание движения вверх по потоку, в область восприятия. Мы формируем триплеты «изображение-язык-трёхмерный поток» из разнородных видео человека и роботов и используем эти триплеты в качестве супервизии во время обучения для формирования кодировщика, работающего только с изображениями. Наша ключевая идея — побудить три модальности охватывать малый объём симплекса в общем гиперсферическом пространстве, причём меньший объём симплекса указывает на более сильное выравнивание. Чтобы избежать геометрической неоднозначности и тривиального коллапса наивной минимизации объёма, мы сочетаем минимизацию объёма симплекса с косинусным регуляризатором и контрастивной целевой функцией. Наш анализ показывает, что DynaFLIP фокусируется на релевантных для управления областях, критически важных для манипулирования. Полученные представления, учитывающие динамику, служат многократно используемыми визуальными магистралями и стабильно превосходят базовые методы в различных последующих политиках, включая VLA. Мы проверяем это в различных симуляционных и реальных установках, при этом прирост достигает +22,5% в сценариях вне распределения. Наши результаты показывают, что обобщение у роботов улучшается, когда визуальные представления обучаются кодировать не только то, что присутствует, но и то, как мир изменяется под действием.

English

Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.