IntentVLA : Modélisation d'intention à court horizon pour la manipulation robotique avec aliasing

Résumé

Les données d’imitation robotique sont souvent multimodales : des observations visuo-linguistiques similaires peuvent être suivies de différents segments d’actions, car les démonstrateurs humains agissent avec des intentions à court terme, des phases de tâche ou un contexte récent différents. Les politiques VLA existantes conditionnées par l’image infèrent chaque segment à partir de l’observation courante et de l’instruction seules, de sorte que, sous une observabilité partielle, elles peuvent rééchantillonner des intentions différentes entre des étapes de replanification adjacentes, entraînant un conflit entre segments et une exécution instable. Nous présentons IntentVLA, un cadre VLA conditionné par l’historique qui encode les observations visuelles récentes en une représentation compacte d’intention à court terme et l’utilise pour conditionner la génération de segments. Nous introduisons également AliasBench, un banc d’essai sensible à l’ambiguïté comprenant 12 tâches sur RoboTwin2, avec des données d’entraînement appariées et des environnements d’évaluation qui isolent l’ambiguïté d’observation à court terme. Sur AliasBench, SimplerEnv, LIBERO et RoboCasa, IntentVLA améliore la stabilité des déploiements et surpasse des bases de référence VLA robustes.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines