ChatPaper.aiChatPaper

Hif-VLA : Rétrospective, perspicacité et prospective par la représentation du mouvement pour les modèles vision-langage-action

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

December 10, 2025
papers.authors: Minghui Lin, Pengxiang Ding, Shu Wang, Zifeng Zhuang, Yang Liu, Xinyang Tong, Wenxuan Song, Shangke Lyu, Siteng Huang, Donglin Wang
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont récemment permis la manipulation robotique en ancrant les indices visuels et linguistiques dans des actions. Cependant, la plupart des VLA supposent la propriété de Markov, s'appuyant uniquement sur l'observation courante et souffrant ainsi d'une myopie temporelle qui dégrade la cohérence sur les horizons longs. Dans ce travail, nous considérons le mouvement comme une représentation plus compacte et informative du contexte temporel et de la dynamique du monde, capturant les changements entre les états tout en filtrant le bruit statique au niveau des pixels. Sur cette base, nous proposons HiF-VLA (Hindsight, Insight, and Foresight for VLAs), un cadre unifié qui exploite le mouvement pour un raisonnement temporel bidirectionnel. HiF-VLA encode la dynamique passée via des priors de hindsight, anticipe le mouvement futur via un raisonnement de foresight, et intègre les deux grâce à un expert conjoint modulé par le hindsight pour permettre un paradigme de « réflexion pendant l'action » pour la manipulation à long terme. En conséquence, HiF-VLA surpasse les solides bases de référence sur les benchmarks LIBERO-Long et CALVIN ABC-D, tout en induisant une latence d'inférence supplémentaire négligeable. De plus, HiF-VLA réalise des améliorations substantielles dans les tâches de manipulation réelles à long terme, démontrant son efficacité étendue dans des contextes robotiques pratiques.
English
Vision-Language-Action (VLA) models have recently enabled robotic manipulation by grounding visual and linguistic cues into actions. However, most VLAs assume the Markov property, relying only on the current observation and thus suffering from temporal myopia that degrades long-horizon coherence. In this work, we view motion as a more compact and informative representation of temporal context and world dynamics, capturing inter-state changes while filtering static pixel-level noise. Building on this idea, we propose HiF-VLA (Hindsight, Insight, and Foresight for VLAs), a unified framework that leverages motion for bidirectional temporal reasoning. HiF-VLA encodes past dynamics through hindsight priors, anticipates future motion via foresight reasoning, and integrates both through a hindsight-modulated joint expert to enable a ''think-while-acting'' paradigm for long-horizon manipulation. As a result, HiF-VLA surpasses strong baselines on LIBERO-Long and CALVIN ABC-D benchmarks, while incurring negligible additional inference latency. Furthermore, HiF-VLA achieves substantial improvements in real-world long-horizon manipulation tasks, demonstrating its broad effectiveness in practical robotic settings.
PDF102December 13, 2025