ChatPaper.aiChatPaper

InSight: 操作可能なVLAによる自己誘導型スキル獲得

InSight: Self-Guided Skill Acquisition via Steerable VLAs

June 23, 2026
著者: Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager
cs.AI

要旨

視覚-言語-行動(VLA)モデルはデモンストレーションから操作スキルを学習できるが、その能力は訓練データに含まれるスキルに制約される。本稿では、VLAをプリミティブ行動レベル(例:「グリッパーをボウルに移動」「上方に持ち上げる」「ボトルを注ぐ」)で操作可能にすることで、自律的なスキル獲得を実現するフレームワークInSightを提案する。InSightは主に2つの段階から構成される。(1) VLMによる計画分解とエンドエフェクタの姿勢を利用してデモンストレーションをラベル付きプリミティブに分割し、VLAのプリミティブ操作可能性を可能にする自動セグメンテーションパイプライン。(2) 新しいタスクを達成するために必要な不足プリミティブを特定し、VLMが提案する低レベル制御を用いて不足プリミティブのデモンストレーションを自律的に試行し、成功したデモンストレーションに自動的にラベル付け、保存、そしてVLA訓練セットに統合するVLM誘導型データフライホイール。我々はInSightを、ブロック反転、引き出し閉鎖、掃き掃除、ねじり、注ぎなどの目標スキルに対する人間のデモンストレーションなしで、シミュレーションおよび実世界の操作タスクにおいて評価した。一度学習されると、これらのプリミティブは追加の人間によるデモンストレーションなしで、新規の長期的タスクを実行するために組み合わせることができる。我々の発見は、プリミティブの操作可能性がVLAポリシーにおける継続的スキル獲得の実用的な基盤を提供することを示している。プロジェクトウェブサイト: https://insight-vla.github.io
English
Vision-language-action (VLA) models can learn manipulation skills from demonstrations, but their capabilities are bounded by the skills in the training data. We present InSight, a framework that unlocks autonomous skill acquisition by rendering VLAs steerable at the primitive-action level (e.g., "move gripper to the bowl", "lift upward", "pour the bottle"). InSight consists of two primary stages: (1) an automated segmentation pipeline that partitions demonstrations into labeled primitives via VLM plan decomposition and end-effector poses to enable VLA primitive steerability, and (2) a VLM-guided data flywheel that identifies missing primitives required to accomplish a novel task, autonomously attempts demonstrations of the missing primitives with VLM-proposed low-level control, and automatically labels, stores, and integrates successful demonstrations into the VLA training set. We evaluate InSight across simulation and real-world manipulation tasks, including block flipping, drawer closing, sweeping, twisting, and pouring, without any human demonstrations of these target skills. Once learned, these primitives can be composed to execute novel, long-horizon tasks without additional human demonstrations. Our findings demonstrate that primitive steerability provides a practical foundation for continual skill acquisition in VLA policies. Project website: https://insight-vla.github.io.