iFlyBot-VLA 기술 보고서
iFlyBot-VLA Technical Report
November 1, 2025
저자: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
초록
우리는 새로운 프레임워크 아래 훈련된 대규모 Vision-Language-Action (VLA) 모델인 iFlyBot-VLA를 소개한다. 주요 기여점은 다음과 같다: (1) 대규모 인간 및 로봇 매니픈레이션 비디오 데이터로 충분히 훈련된 잠재 행동 모델; (2) 훈련 과정에서 Vision-Language Model (VLM)과 행동 전문가 모델을 공동으로 지도하는 이중 수준 행동 표현 프레임워크; (3) 로봇 궤적 데이터와 일반 QA 및 공간 QA 데이터셋을 결합한 혼합 훈련 전략으로, VLM 백본의 3D 인지 및 추론 능력을 효과적으로 향상시킴. 구체적으로, VLM은 두 가지 상호 보완적인 형태의 행동을 예측하도록 훈련된다: 크로스 임보디먼트(cross-embodiment) 매니픈레이션 데이터에 사전 훈련된 우리의 잠재 행동 모델에서 도출된, 암묵적인 높은 수준의 의도를 포착하는 잠재 행동(latent actions); 그리고 연속 제어 신호의 주파수 영역 변환을 통해 얻어진, 명시적인 낮은 수준의 동역학을 인코딩하는 구조화된 이산 행동 토큰(structured discrete action tokens). 이러한 이중 지도는 언어, 시각, 행동의 표현 공간을 정렬하여 VLM이 행동 생성에 직접 기여할 수 있도록 한다. LIBERO Franka 벤치마크에서의 실험 결과는 우리 프레임워크의 우수성을 입증하며, 실제 환경 평가에서도 iFlyBot-VLA가 다양하고 도전적인 매니픈레이션 작업에서 경쟁력 있는 성공률을 달성함을 추가로 보여준다. 나아가, 우리는 커뮤니티의 향후 연구를 지원하기 위해 자체 구축한 데이터셋의 일부를 오픈소스로 공개할 계획이다.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community