IntentVLA: Modelagem de Intenção de Curto Horizonte para Manipulação Robótica com Aliasing

Resumo

Os dados de imitação robótica são frequentemente multimodais: observações visuais-linguísticas semelhantes podem ser seguidas por diferentes segmentos de ação devido ao fato de que os demonstradores humanos agem com intenções distintas de curto horizonte, fases da tarefa ou contexto recente. As políticas VLA existentes condicionadas ao quadro inferem cada segmento apenas a partir da observação e instrução atuais; logo, sob observabilidade parcial, elas podem reamostrar diferentes intenções ao longo de passos adjacentes de replanejamento, resultando em conflito entre segmentos e execução instável. Apresentamos o IntentVLA, um framework VLA condicionado ao histórico que codifica observações visuais recentes em uma representação compacta de intenção de curto horizonte e a utiliza para condicionar a geração de segmentos. Além disso, introduzimos o AliasBench, um benchmark ciente de ambiguidade com 12 tarefas no RoboTwin2, acompanhado de dados de treinamento e ambientes de avaliação que isolam o aliasing observacional de curto horizonte. Nos benchmarks AliasBench, SimplerEnv, LIBERO e RoboCasa, o IntentVLA melhora a estabilidade de rollout e supera as fortes linhas de base VLA.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines