IntentVLA: Korte-termijn Intentiemodellering voor Aliased Robotmanipulatie

Samenvatting

Robotinstrumentatiegegevens zijn vaak multimodaal: soortgelijke visueel-linguïstische waarnemingen kunnen gevolgd worden door verschillende actiechunks, omdat menselijke demonstranten handelen met uiteenlopende korte-termijn intenties, taakfasen of recente context. Bestaande frame-geconditioneerde VLA-beleiden leiden elke chunk af uit uitsluitend de huidige waarneming en instructie, waardoor ze bij partiële waarneembaarheid verschillende intenties over opeenvolgende herplanstappen kunnen hermonsteren, wat leidt tot conflict tussen chunks en instabiele uitvoering. We introduceren IntentVLA, een geschiedenis-geconditioneerd VLA-raamwerk dat recente visuele waarnemingen codeert in een compacte korte-termijn intentierepresentatie en deze gebruikt om chunkgeneratie te conditioneren. Verder introduceren we AliasBench, een dubbelzinnigheidsbewuste benchmark met 12 taken op RoboTwin2, met bijpassende trainingsdata en evaluatieomgevingen die korte-termijn waarnemingsaliasing isoleren. Over AliasBench, SimplerEnv, LIBERO en RoboCasa verbetert IntentVLA de uitrolstabiliteit en presteert het beter dan sterke VLA-baselines.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines