ChatPaper.aiChatPaper

IntentVLA: Modelado de intenciones de corto horizonte para manipulación robótica con aliasing

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

May 14, 2026
Autores: Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen
cs.AI

Resumen

Los datos de imitación robótica suelen ser multimodales: observaciones similares de lenguaje visual pueden ser seguidas por diferentes segmentos de acción porque los demostradores humanos actúan con distintas intenciones de corto horizonte, fases de tarea o contexto reciente. Las políticas VLA existentes condicionadas por el fotograma actual infieren cada segmento únicamente a partir de la observación actual y la instrucción, por lo que, bajo observabilidad parcial, pueden remuestrear diferentes intenciones entre pasos de replanificación adyacentes, lo que genera conflictos entre segmentos y una ejecución inestable. Presentamos IntentVLA, un marco VLA condicionado por el historial que codifica observaciones visuales recientes en una representación compacta de intención de corto horizonte y la utiliza para condicionar la generación de segmentos. Además, introducimos AliasBench, un banco de pruebas con 12 tareas consciente de la ambigüedad en RoboTwin2, con datos de entrenamiento y entornos de evaluación emparejados que aíslan el aliasing de observación de corto horizonte. En AliasBench, SimplerEnv, LIBERO y RoboCasa, IntentVLA mejora la estabilidad de ejecución y supera a las líneas base VLA sólidas.
English
Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines