TIC-VLA: Um Modelo de Pensar-para-Controlar Visão-Linguagem-Ação para Navegação Robótica em Ambientes Dinâmicos

Resumo

Robots em ambientes dinâmicos centrados no ser humano devem seguir instruções linguísticas mantendo simultaneamente controlo reativo em tempo real. Os modelos visão-linguagem-ação (VLA) oferecem uma estrutura promissora, mas partem do princípio de um raciocínio e controlo temporalmente alinhados, apesar de a inferência semântica ser inerentemente atrasada relativamente à ação em tempo real. Apresentamos o TIC-VLA, uma estrutura consciente da latência que modela explicitamente o raciocínio semântico atrasado durante a geração de ações. O TIC-VLA define uma interface semântica de controlo atrasado que condiciona a geração de ações a estados semânticos visão-linguagem atrasados e a metadados de latência explícitos, para além das observações atuais, permitindo que as políticas compensem o raciocínio assíncrono. Propomos ainda um pipeline de treino consistente com a latência que injeta atrasos de inferência de raciocínio durante a aprendizagem por imitação e a aprendizagem por reforço online, alinhando o treino com a implantação assíncrona. Para suportar uma avaliação realista, apresentamos o DynaNav, um conjunto de simulações foto-realistas com precisão física para navegação guiada por linguagem em ambientes dinâmicos. Experiências extensivas em simulação e num robô real mostram que o TIC-VLA supera consistentemente os modelos VLA anteriores, mantendo um controlo robusto em tempo real sob latências de raciocínio de vários segundos. Site do projeto: https://ucla-mobility.github.io/TIC-VLA/

English

Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/

TIC-VLA: Um Modelo de Pensar-para-Controlar Visão-Linguagem-Ação para Navegação Robótica em Ambientes Dinâmicos

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Resumo

Support