HiF-VLA: 운동 표현을 통한 Vision-Language-Action 모델의 후향, 통찰 및 전망
HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
December 10, 2025
저자: Minghui Lin, Pengxiang Ding, Shu Wang, Zifeng Zhuang, Yang Liu, Xinyang Tong, Wenxuan Song, Shangke Lyu, Siteng Huang, Donglin Wang
cs.AI
초록
비전-언어-행동(VLA) 모델은 최근 시각 및 언어적 단서를 행동으로 연결함으로써 로봇 매니�레이션을 가능하게 해왔습니다. 그러나 대부분의 VLA 모델은 마르코프 속성을 가정하여 현재 관측값에만 의존함으로써 시간적 근시안성으로 인해 장기적 일관성이 저하되는 문제를 겪습니다. 본 연구에서는 움직임을 시간적 맥락과 세계 역학의 더 간결하고 유익한 표현으로 간주하며, 상태 간 변화를 포착하는 동시에 정적 픽셀 수준의 노이즈를 필터링합니다. 이 아이디어를 바탕으로 우리는 움직임을 활용한 양방향 시간 추론을 위한 통합 프레임워크인 HiF-VLA(Hindsight, Insight, and Foresight for VLAs)를 제안합니다. HiF-VLA는 후향적 사전 지식을 통해 과거 역학을 인코딩하고, 전향적 추론을 통해 미래 움직임을 예측하며, 양자를 후향적 조정 결합 전문가를 통해 통합하여 장기적 매니�레이션을 위한 '행동 중 사고' 패러다임을 가능하게 합니다. 그 결과 HiF-VLA는 LIBERO-Long 및 CALVIN ABC-D 벤치마크에서 강력한 기준 모델들을 능가하며, 추론 지연 시간은 무시할 수준으로 증가하는 데 그쳤습니다. 더 나아가 HiF-VLA는 실제 장기적 매니�이션 작업에서도 상당한 성능 향상을 달성하여 실용적인 로봇 환경에서의 광범위한 효과성을 입증했습니다.
English
Vision-Language-Action (VLA) models have recently enabled robotic manipulation by grounding visual and linguistic cues into actions. However, most VLAs assume the Markov property, relying only on the current observation and thus suffering from temporal myopia that degrades long-horizon coherence. In this work, we view motion as a more compact and informative representation of temporal context and world dynamics, capturing inter-state changes while filtering static pixel-level noise. Building on this idea, we propose HiF-VLA (Hindsight, Insight, and Foresight for VLAs), a unified framework that leverages motion for bidirectional temporal reasoning. HiF-VLA encodes past dynamics through hindsight priors, anticipates future motion via foresight reasoning, and integrates both through a hindsight-modulated joint expert to enable a ''think-while-acting'' paradigm for long-horizon manipulation. As a result, HiF-VLA surpasses strong baselines on LIBERO-Long and CALVIN ABC-D benchmarks, while incurring negligible additional inference latency. Furthermore, HiF-VLA achieves substantial improvements in real-world long-horizon manipulation tasks, demonstrating its broad effectiveness in practical robotic settings.