ChatPaper.aiChatPaper

TIC-VLA: Un Modelo de Pensar-en-Control Visión-Lenguaje-Acción para la Navegación de Robots en Entornos Dinámicos

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

February 2, 2026
Autores: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI

Resumen

Los robots en entornos dinámicos centrados en humanos deben seguir instrucciones lingüísticas manteniendo un control reactivo en tiempo real. Los modelos visión-lenguaje-acción (VLA) ofrecen un marco prometedor, pero asumen un razonamiento y control temporalmente alineados, a pesar de que la inferencia semántica es inherentemente retardada respecto a la acción en tiempo real. Presentamos TIC-VLA (Think-in-Control), un marco consciente de la latencia que modela explícitamente el razonamiento semántico retardado durante la generación de acciones. TIC-VLA define una interfaz semántica-control retardada que condiciona la generación de acciones a estados semánticos de visión-lenguaje retardados y metadatos explícitos de latencia, además de las observaciones actuales, permitiendo que las políticas compensen el razonamiento asíncrono. Además, proponemos un pipeline de entrenamiento consistente con la latencia que inyecta retardos de inferencia semántica durante el aprendizaje por imitación y el aprendizaje por refuerzo en línea, alineando el entrenamiento con el despliegue asíncrono. Para permitir una evaluación realista, presentamos DynaNav, un conjunto de simulaciones foto-realistas con física precisa para la navegación guiada por lenguaje en entornos dinámicos. Experimentos exhaustivos en simulación y en un robot real muestran que TIC-VLA supera consistentemente a los modelos VLA anteriores, manteniendo un control robusto en tiempo real bajo retardos de razonamiento de varios segundos. Sitio web del proyecto: https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/
PDF21February 13, 2026