TIC-VLA: Um Modelo de Pensar-para-Controlar Visão-Linguagem-Ação para Navegação Robótica em Ambientes Dinâmicos
TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments
February 2, 2026
Autores: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI
Resumo
Robots em ambientes dinâmicos centrados no ser humano devem seguir instruções linguísticas mantendo simultaneamente controlo reativo em tempo real. Os modelos visão-linguagem-ação (VLA) oferecem uma estrutura promissora, mas partem do princípio de um raciocínio e controlo temporalmente alinhados, apesar de a inferência semântica ser inerentemente atrasada relativamente à ação em tempo real. Apresentamos o TIC-VLA, uma estrutura consciente da latência que modela explicitamente o raciocínio semântico atrasado durante a geração de ações. O TIC-VLA define uma interface semântica de controlo atrasado que condiciona a geração de ações a estados semânticos visão-linguagem atrasados e a metadados de latência explícitos, para além das observações atuais, permitindo que as políticas compensem o raciocínio assíncrono. Propomos ainda um pipeline de treino consistente com a latência que injeta atrasos de inferência de raciocínio durante a aprendizagem por imitação e a aprendizagem por reforço online, alinhando o treino com a implantação assíncrona. Para suportar uma avaliação realista, apresentamos o DynaNav, um conjunto de simulações foto-realistas com precisão física para navegação guiada por linguagem em ambientes dinâmicos. Experiências extensivas em simulação e num robô real mostram que o TIC-VLA supera consistentemente os modelos VLA anteriores, mantendo um controlo robusto em tempo real sob latências de raciocínio de vários segundos. Site do projeto: https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/