ChatPaper.aiChatPaper

TIC-VLA: Модель «Мысль-Управление-Видение-Язык-Действие» для навигации роботов в динамических средах

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

February 2, 2026
Авторы: Zhiyu Huang, Yun Zhang, Johnson Liu, Rui Song, Chen Tang, Jiaqi Ma
cs.AI

Аннотация

Роботы в динамичных средах, ориентированных на человека, должны выполнять языковые инструкции, сохраняя при этом реактивное управление в реальном времени. Модели "зрение-язык-действие" (VLA) предлагают перспективную основу, но они предполагают временнýю синхронизацию рассуждений и управления, несмотря на то, что семантический вывод по своей природе запаздывает относительно действий в реальном времени. Мы представляем Think-in-Control (TIC)-VLA — фреймворк, учитывающий задержки, который явно моделирует запаздывающее семантическое рассуждение в процессе генерации действий. TIC-VLA определяет интерфейс "запаздывающее семантическое управление", который обусловливает генерацию действий не только текущими наблюдениями, но и запаздывающими семантическими состояниями "зрение-язык", а также метаданными о явной задержке, что позволяет политикам компенсировать асинхронность рассуждений. Мы также предлагаем конвейер обучения, согласованный с задержками, который внедряет задержки логического вывода в процессе имитационного обучения и обучения с подкреплением онлайн, согласуя тренировку с асинхронным развертыванием. Для реалистичной оценки мы представляем DynaNav — фотореалистичный симуляционный комплекс с физически точным моделированием для навигации по языковым инструкциям в динамичных средах. Многочисленные эксперименты в симуляции и на реальном роботе показывают, что TIC-VLA стабильно превосходит предыдущие модели VLA, сохраняя при этом надежное управление в реальном времени при задержках рассуждений в несколько секунд. Сайт проекта: https://ucla-mobility.github.io/TIC-VLA/
English
Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/
PDF21February 13, 2026