ChatPaper.aiChatPaper

비전-언어-행동 모델을 위한 상호작용적 사후 훈련

Interactive Post-Training for Vision-Language-Action Models

May 22, 2025
저자: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI

초록

우리는 사전 학습된 Vision-Language-Action (VLA) 모델을 희소한 이진 성공 보상만을 사용하여 미세 조정하는 간단하고 확장 가능한 강화 학습 기반의 상호작용적 사후 학습 패러다임인 RIPT-VLA를 소개합니다. 기존의 VLA 학습 파이프라인은 오프라인 전문가 시연 데이터와 지도 학습 기반 모방에 크게 의존하여, 데이터가 부족한 상황에서 새로운 작업과 환경에 적응하는 능력이 제한됩니다. RIPT-VLA는 동적 롤아웃 샘플링과 leave-one-out 이점 추정을 기반으로 한 안정적인 정책 최적화 알고리즘을 통해 상호작용적 사후 학습을 가능하게 함으로써 이를 해결합니다. RIPT-VLA는 다음과 같은 특징을 가집니다. 첫째, 다양한 VLA 모델에 적용 가능하며, 경량화된 QueST 모델의 성능을 21.2% 향상시키고, 7B OpenVLA-OFT 모델을 전례 없는 97.5%의 성공률로 끌어올립니다. 둘째, 계산 효율적이고 데이터 효율적입니다: 단 하나의 시연만으로도 RIPT-VLA는 작동 불가능했던 SFT 모델(4%)을 15번의 반복 내에 97%의 성공률로 성공시킬 수 있습니다. 더 나아가, RIPT-VLA에 의해 학습된 정책이 다양한 작업과 시나리오에 걸쳐 일반화되며 초기 상태 문맥에 강건함을 보여줍니다. 이러한 결과는 RIPT-VLA가 최소한의 감독을 통해 VLA 모델을 사후 학습하는 실용적이고 효과적인 패러다임임을 강조합니다.
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.

Summary

AI-Generated Summary

PDF52May 26, 2025