TIC-VLA : Un modèle Vision-Langue-Action Penser-pour-Contrôler pour la navigation robotique dans des environnements dynamiques
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
February 2, 2026
papers.authors: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI
papers.abstract
Les robots évoluant dans des environnements dynamiques centrés sur l'humain doivent suivre des instructions linguistiques tout en maintenant un contrôle réactif en temps réel. Les modèles vision-langage-action (VLA) offrent un cadre prometteur, mais ils supposent un raisonnement et un contrôle temporellement alignés, bien que l'inférence sémantique soit intrinsèquement retardée par rapport à l'action en temps réel. Nous présentons Think-in-Control (TIC)-VLA, un cadre conscient de la latence qui modélise explicitement le raisonnement sémantique retardé lors de la génération d'actions. TIC-VLA définit une interface sémantique-contrôle retardée qui conditionne la génération d'actions sur des états sémantiques vision-langage retardés et des métadonnées de latence explicites, en plus des observations courantes, permettant aux politiques de compenser le raisonnement asynchrone. Nous proposons en outre un pipeline d'entraînement cohérent avec la latence qui injecte des délais d'inférence de raisonnement pendant l'apprentissage par imitation et l'apprentissage par renforcement en ligne, alignant ainsi l'entraînement sur un déploiement asynchrone. Pour permettre une évaluation réaliste, nous présentons DynaNav, une suite de simulation photoréaliste et physiquement précise pour la navigation guidée par le langage dans des environnements dynamiques. Des expériences approfondies en simulation et sur un robot réel montrent que TIC-VLA surpasse constamment les modèles VLA antérieurs tout en maintenant un contrôle robuste en temps réel sous une latence de raisonnement de plusieurs secondes. Site web du projet : https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/