IntentVLA: Моделирование намерений на коротком горизонте для манипуляций робота в условиях алиасинга

Аннотация

Данные имитации в робототехнике часто являются мультимодальными: сходные визуально-языковые наблюдения могут приводить к разным отрезкам действий, поскольку демонстраторы-люди действуют с разными краткосрочными намерениями, фазами задачи или недавним контекстом. Существующие политики VLA, обусловленные кадрами, выводят каждый отрезок только на основе текущего наблюдения и инструкции, поэтому в условиях частичной наблюдаемости они могут заново выбирать разные намерения на соседних шагах перепланирования, что приводит к межчанковому конфликту и нестабильному выполнению. Мы представляем IntentVLA — фреймворк VLA, обусловленный историей, который кодирует недавние визуальные наблюдения в компактное представление краткосрочных намерений и использует его для обусловливания генерации отрезков. Дополнительно мы вводим AliasBench — эталонный набор задач с неоднозначностью на 12 задач на платформе RoboTwin2, содержащий согласованные обучающие данные и среды оценки, изолирующие эффект омонимичности наблюдений на коротких горизонтах. На AliasBench, SimplerEnv, LIBERO и RoboCasa IntentVLA улучшает стабильность развертывания и превосходит сильные базовые модели VLA.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines