TIC-VLA: 동적 환경에서 로봇 탐색을 위한 Think-in-Control 비전-언어-행동 모델
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
February 2, 2026
저자: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI
초록
동적이고 인간 중심 환경에서 로봇은 실시간 반응 제어를 유지하면서 언어 지시를 따라야 합니다. 비전-언어-행동(VLA) 모델은 유망한 프레임워크를 제공하지만, 의미론적 추론이 실시간 행동에 비해 본질적으로 지연됨에도 불구하고 시간적으로 정렬된 추론과 제어를 가정합니다. 우리는 행동 생성 중 지연된 의미론적 추론을 명시적으로 모델링하는 지연 인식 프레임워크인 Think-in-Control(TIC)-VLA를 소개합니다. TIC-VLA는 현재 관측값에 더해 지연된 비전-언어 의미론적 상태와 명시적 지연 메타데이터를 행동 생성의 조건으로 하는 지연된 의미론적-제어 인터페이스를 정의하여 정책이 비동기적 추론을 보상할 수 있도록 합니다. 또한 우리는 모방 학습 및 온라인 강화 학습 중 추론 지연을 주입하여 훈련을 비동기적 배치에 맞추는 지연 일관성 훈련 파이프라인을 제안합니다. 현실적인 평가를 지원하기 위해 우리는 동적 환경에서 언어 주도 내비게이션을 위한 물리학적으로 정확하고 사실적인 시뮬레이션 제품군인 DynaNav를 제시합니다. 시뮬레이션 및 실제 로봇에서의 광범위한 실험을 통해 TIC-VLA가 다중 초 단위 추론 지연 하에서도 견고한 실시간 제어를 유지하면서 기존 VLA 모델을 지속적으로 능가함을 보여줍니다. 프로젝트 웹사이트: https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/