TIC-VLA: Ein Think-in-Control-Vision-Language-Action-Modell für die Roboternavigation in dynamischen Umgebungen

papers.abstract

Roboter in dynamischen, menschenzentrierten Umgebungen müssen Sprachinstruktionen befolgen und gleichzeitig eine echtzeitfähige Reaktionskontrolle aufrechterhalten. Vision-Language-Action (VLA)-Modelle bieten einen vielversprechenden Rahmen, gehen jedoch von einer zeitlich abgestimmten Abfolge von Reasoning und Kontrolle aus, obwohl semantische Inferenz inhärent verzögert gegenüber Echtzeithandlungen erfolgt. Wir stellen Think-in-Control (TIC)-VLA vor, ein latenzbewusstes Framework, das verzögertes semantisches Reasoning während der Aktionsgenerierung explizit modelliert. TIC-VLA definiert eine verzögerte semantisch-steuerungstechnische Schnittstelle, die die Aktionsgenerierung nicht nur auf Basis aktueller Beobachtungen, sondern auch auf verzögerte visuell-sprachliche Semantikzustände und explizite Latenzmetadaten konditioniert. Dies ermöglicht es Strategien (Policies), asynchrones Reasoning zu kompensieren. Weiterhin schlagen wir eine latenzkonsistente Trainingspipeline vor, die Rückschlussverzögerungen (Reasoning Inference Delays) während des Imitationslernens und des Online-Verstärkungslernens injiziert und so das Training mit dem asynchronen Einsatz in Echtzeit in Einklang bringt. Zur Unterstützung einer realistischen Evaluation präsentieren wir DynaNav, eine physikalisch präzise, fotorealistische Simulationssuite für sprachgesteuerte Navigation in dynamischen Umgebungen. Umfangreiche Experimente in der Simulation und an einem realen Roboter zeigen, dass TIC-VLA durchgängig frühere VLA-Modelle übertrifft und dabei eine robuste Echtzeitkontrolle unter Reasoning-Latenzen von mehreren Sekunden beibehält. Projekt-Website: https://ucla-mobility.github.io/TIC-VLA/

English

Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/

TIC-VLA: Ein Think-in-Control-Vision-Language-Action-Modell für die Roboternavigation in dynamischen Umgebungen

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

papers.abstract

Support