Technisch Rapport iFlyBot-VLA
iFlyBot-VLA Technical Report
November 1, 2025
Auteurs: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
Samenvatting
Wij introduceren iFlyBot-VLA, een grootschalig Vision-Language-Action (VLA) model dat is getraind onder een nieuw raamwerk. De belangrijkste bijdragen zijn als volgt:
(1) een latent actiemodel grondig getraind op grootschalige menselijke en robotmanipulatievideo's;
(2) een duaal actierepresentatieraamwerk dat zowel het Vision-Language Model (VLM) als de actie-expert gezamenlijk superviseert tijdens de training;
(3) een gemengde trainingsstrategie die robotbaangegevens combineert met algemene QA- en ruimtelijke QA-datasets, waardoor de 3D-waarnemings- en redeneervermogens van de VLM-backbone effectief worden verbeterd.
Specifiek wordt het VLM getraind om twee complementaire vormen van acties te voorspellen: latente acties, afgeleid van ons vooraf getrainde latentie-actiemodel op cross-embodiment manipulatiegegevens, die impliciete hoogwaardige intenties vastleggen; en gestructureerde discrete actietokens, verkregen via frequentiedomeintransformaties van continue regelsignalen, die expliciete laagwaardige dynamiek coderen. Deze dubbele supervisie brengt de representatieruimten van taal, visie en actie in overeenstemming, waardoor het VLM direct kan bijdragen aan actiegeneratie.
Experimentele resultaten op de LIBERO Franka-benchmark tonen de superioriteit van ons raamwerk aan, terwijl evaluaties in de echte wereld verder aantonen dat iFlyBot-VLA competitieve slagingspercentages behaalt bij diverse en uitdagende manipulatietaken. Verder zijn wij van plan een deel van onze zelf samengestelde dataset open source te maken om toekomstig onderzoek in de gemeenschap te ondersteunen.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community