TIC-VLA: Un modello Visione-Linguaggio-Azione Think-in-Control per la navigazione robotica in ambienti dinamici

Abstract

I robot in ambienti dinamici e centrati sull'uomo devono seguire istruzioni linguistiche mantenendo al contempo un controllo reattivo in tempo reale. I modelli visione-linguaggio-azione (VLA) offrono un quadro promettente, ma presuppongono un ragionamento e un controllo temporalmente allineati, nonostante l'inferenza semantica sia intrinsecamente ritardata rispetto all'azione in tempo reale. Introduciamo Think-in-Control (TIC)-VLA, un framework consapevole della latenza che modella esplicitamente il ragionamento semantico ritardato durante la generazione delle azioni. TIC-VLA definisce un'interfaccia semantica-controllo ritardata che condiziona la generazione delle azioni sugli stati semantici visione-linguaggio ritardati e sui metadati espliciti della latenza, oltre che sulle osservazioni correnti, consentendo alle politiche di compensare il ragionamento asincrono. Proponiamo inoltre una pipeline di addestramento consistente con la latenza che inietta ritardi di inferenza del ragionamento durante l'apprendimento per imitazione e l'apprendimento per rinforzo online, allineando l'addestramento con la distribuzione asincrona. Per supportare una valutazione realistica, presentiamo DynaNav, una suite di simulazione fisicamente accurata e fotorealistica per la navigazione guidata dal linguaggio in ambienti dinamici. Esperimenti estensivi in simulazione e su un robot reale mostrano che TIC-VLA supera costantemente i precedenti modelli VLA mantenendo al contempo un robusto controllo in tempo reale sotto latenze di ragionamento di più secondi. Sito web del progetto: https://ucla-mobility.github.io/TIC-VLA/

English

Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/

TIC-VLA: Un modello Visione-Linguaggio-Azione Think-in-Control per la navigazione robotica in ambienti dinamici

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Abstract

Support