TIC-VLA: 動的環境におけるロボットナビゲーションのための思考制御視覚言語行動モデル
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
February 2, 2026
著者: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI
要旨
動的で人間中心の環境におけるロボットは、言語指示に従うとともに、リアルタイムの反応制御を維持しなければならない。Vision-Language-Action(VLA)モデルは有望な枠組みを提供するが、意味推論が本質的にリアルタイム動作に対して遅延するにもかかわらず、時間的に同期した推論と制御を前提としている。本研究では、行動生成中の遅延した意味推論を明示的にモデル化する、レイテンシを考慮したフレームワーク「Think-in-Control(TIC)-VLA」を提案する。TIC-VLAは、現在の観測に加えて、遅延した視覚言語意味状態と明示的なレイテンシメタデータに基づいて行動生成を条件付ける、遅延セマンティック-コントロールインターフェースを定義し、非同期推論を補償するポリシーを可能にする。さらに、模倣学習およびオンライン強化学習中に推論推論遅延を注入し、トレーニングを非同期展開に整合させる、レイテンシ整合型トレーニングパイプラインを提案する。現実的な評価を支援するため、動的環境における言語誘導ナビゲーションのための、物理精度が高く写実的なシミュレーションスイートDynaNavを提示する。シミュレーションおよび実ロボットによる広範な実験により、TIC-VLAが数秒に及ぶ推論遅延下で堅牢なリアルタイム制御を維持しつつ、従来のVLAモデルを一貫して上回ることを示す。プロジェクトウェブサイト: https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/