ChatPaper.aiChatPaper

InSight: 조종 가능한 VLA를 통한 자기 주도적 기술 습득

InSight: Self-Guided Skill Acquisition via Steerable VLAs

June 23, 2026
저자: Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager
cs.AI

초록

시각-언어-행동(VLA) 모델은 시연으로부터 조작 기술을 학습할 수 있지만, 그 능력은 훈련 데이터 내 기술에 의해 제한됩니다. 우리는 VLA를 기본 행동 수준(예: "그리퍼를 그릇으로 이동", "위로 들어 올리기", "병 따르기")에서 조종 가능하게 함으로써 자율적인 기술 습득을 가능하게 하는 프레임워크인 InSight를 제시합니다. InSight는 두 가지 주요 단계로 구성됩니다: (1) VLM 계획 분해와 엔드 이펙터 자세를 통해 시연을 레이블된 기본 동작으로 분할하여 VLA 기본 동작 제어 가능성을 구현하는 자동 분할 파이프라인, (2) 새로운 작업을 완료하는 데 필요한 누락된 기본 동작을 식별하고, VLM이 제안한 저수준 제어를 사용하여 누락된 기본 동작의 시연을 자율적으로 시도하며, 성공적인 시연을 자동으로 레이블링, 저장, VLA 훈련 세트에 통합하는 VLM 기반 데이터 플라이휠입니다. 우리는 블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 따르기 등 시뮬레이션 및 실제 조작 작업에서 이러한 대상 기술에 대한 인간의 시연 없이 InSight를 평가했습니다. 학습된 후에는 이러한 기본 동작을 조합하여 추가 인간 시연 없이 새로운 장기 작업을 실행할 수 있습니다. 우리의 연구 결과는 기본 동작 제어 가능성이 VLA 정책에서 지속적인 기술 습득을 위한 실용적인 기반을 제공함을 보여줍니다. 프로젝트 웹사이트: https://insight-vla.github.io.
English
Vision-language-action (VLA) models can learn manipulation skills from demonstrations, but their capabilities are bounded by the skills in the training data. We present InSight, a framework that unlocks autonomous skill acquisition by rendering VLAs steerable at the primitive-action level (e.g., "move gripper to the bowl", "lift upward", "pour the bottle"). InSight consists of two primary stages: (1) an automated segmentation pipeline that partitions demonstrations into labeled primitives via VLM plan decomposition and end-effector poses to enable VLA primitive steerability, and (2) a VLM-guided data flywheel that identifies missing primitives required to accomplish a novel task, autonomously attempts demonstrations of the missing primitives with VLM-proposed low-level control, and automatically labels, stores, and integrates successful demonstrations into the VLA training set. We evaluate InSight across simulation and real-world manipulation tasks, including block flipping, drawer closing, sweeping, twisting, and pouring, without any human demonstrations of these target skills. Once learned, these primitives can be composed to execute novel, long-horizon tasks without additional human demonstrations. Our findings demonstrate that primitive steerability provides a practical foundation for continual skill acquisition in VLA policies. Project website: https://insight-vla.github.io.