IntentVLA: Kurzfristige Absichtsmodellierung für Robotermanipulation mit Aliasing

Zusammenfassung

Robotische Imitationsdaten sind häufig multimodal: Ähnliche visuell-sprachliche Beobachtungen können von unterschiedlichen Aktionssequenzen gefolgt werden, da menschliche Demonstratoren mit verschiedenen kurzfristigen Absichten, Aufgabenphasen oder aktuellem Kontext handeln. Bestehende, rahmenbedingte VLA-Modelle leiten jede Sequenz ausschließlich aus der aktuellen Beobachtung und Anweisung ab, sodass sie bei teilweiser Beobachtbarkeit über benachbarte Neuplanungsschritte hinweg unterschiedliche Absichten erneut abtasten können, was zu Konflikten zwischen den Sequenzen und instabiler Ausführung führt. Wir stellen IntentVLA vor, ein kontextabhängiges VLA-Framework, das aktuelle visuelle Beobachtungen in eine kompakte, kurzzeitige Absichtsdarstellung kodiert und diese zur Konditionierung der Sequenzgenerierung nutzt. Darüber hinaus führen wir AliasBench ein, einen auf 12 Aufgaben ausgelegten, mehrdeutigkeitsbewussten Benchmark auf RoboTwin2 mit abgestimmten Trainingsdaten und Evaluierungsumgebungen, die kurzzeitige Beobachtungsmehrdeutigkeit isolieren. In AliasBench, SimplerEnv, LIBERO und RoboCasa verbessert IntentVLA die Ausführungsstabilität und übertrifft starke VLA-Baselines.

English

Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines