IntentVLA: Modelado de intenciones de corto horizonte para manipulación robótica con aliasing

Resumen

Los datos de imitación robótica suelen ser multimodales: observaciones similares de lenguaje visual pueden ser seguidas por diferentes segmentos de acción porque los demostradores humanos actúan con distintas intenciones de corto horizonte, fases de tarea o contexto reciente. Las políticas VLA existentes condicionadas por el fotograma actual infieren cada segmento únicamente a partir de la observación actual y la instrucción, por lo que, bajo observabilidad parcial, pueden remuestrear diferentes intenciones entre pasos de replanificación adyacentes, lo que genera conflictos entre segmentos y una ejecución inestable. Presentamos IntentVLA, un marco VLA condicionado por el historial que codifica observaciones visuales recientes en una representación compacta de intención de corto horizonte y la utiliza para condicionar la generación de segmentos. Además, introducimos AliasBench, un banco de pruebas con 12 tareas consciente de la ambigüedad en RoboTwin2, con datos de entrenamiento y entornos de evaluación emparejados que aíslan el aliasing de observación de corto horizonte. En AliasBench, SimplerEnv, LIBERO y RoboCasa, IntentVLA mejora la estabilidad de ejecución y supera a las líneas base VLA sólidas.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines