TIC-VLA: Een Think-in-Control Vision-Language-Action Model voor Robotnavigatie in Dynamische Omgevingen

Samenvatting

Robots in dynamische, mensgerichte omgevingen moeten taal-instructies opvolgen en tegelijkertijd realtime reactieve controle behouden. Vision-Language-Action (VLA)-modellen bieden een veelbelovend kader, maar zij veronderstellen tijdelijk uitgelijnde redenering en controle, ondanks het feit dat semantische inferentie inherent vertraagd is ten opzichte van realtime actie. Wij introduceren Think-in-Control (TIC)-VLA, een latentiebewust kader dat vertraagde semantische redenering expliciet modelleert tijdens actiegeneratie. TIC-VLA definieert een vertraagd semantisch-controle-interface die actiegeneratie conditioneert op vertraagde visie-taal semantische toestanden en expliciete latentie-metadata, naast huidige observaties, waardoor beleid in staat wordt gesteld om asynchrone redenering te compenseren. Wij stellen verder een latentieconsistente trainingspijplijn voor die redeneerinferentievertragingen injecteert tijdens imitatieleren en online reinforcement learning, waardoor training wordt afgestemd op asynchrone implementatie. Voor realistische evaluatie presenteren wij DynaNav, een physics-accurate, fotorealistische simulatiesuite voor taalgeleide navigatie in dynamische omgevingen. Uitgebreide experimenten in simulatie en op een echte robot tonen aan dat TIC-VLA consistent beter presteert dan eerdere VLA-modellen, terwijl robuuste realtime controle wordt gehandhaafd onder redeneerlatentie van meerdere seconden. Projectwebsite: https://ucla-mobility.github.io/TIC-VLA/

English

Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/

TIC-VLA: Een Think-in-Control Vision-Language-Action Model voor Robotnavigatie in Dynamische Omgevingen

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Samenvatting

Support