Rapport Technique iFlyBot-VLA
iFlyBot-VLA Technical Report
November 1, 2025
papers.authors: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
papers.abstract
Nous présentons iFlyBot-VLA, un modèle Vision-Langage-Action (VLA) à grande échelle entraîné selon une nouvelle architecture. Les contributions principales sont les suivantes : (1) un modèle d'action latente entraîné de manière exhaustive sur de vastes collections de vidéos de manipulations humaines et robotiques ; (2) un cadre de représentation d'action à double niveau qui supervise conjointement le modèle vision-langage (VLM) et l'expert en action pendant l'entraînement ; (3) une stratégie d'entraînement mixte combinant des données de trajectoires robotiques avec des ensembles de données de questions-réponses générales et spatiales, améliorant efficacement les capacités de perception 3D et de raisonnement du backbone VLM. Plus précisément, le VLM est entraîné à prédire deux formes d'actions complémentaires : des actions latentes, dérivées de notre modèle d'action latente pré-entraîné sur des données de manipulation trans-embodiment, qui capturent des intentions de haut niveau implicites ; et des tokens d'action discrets structurés, obtenus par transformation dans le domaine fréquentiel de signaux de contrôle continus, qui encodent la dynamique explicite de bas niveau. Cette double supervision aligne les espaces de représentation du langage, de la vision et de l'action, permettant au VLM de contribuer directement à la génération d'actions. Les résultats expérimentaux sur le benchmark LIBERO Franka démontrent la supériorité de notre architecture, tandis que des évaluations en conditions réelles montrent en outre qu'iFlyBot-VLA atteint des taux de réussite compétitifs sur diverses tâches de manipulation complexes. De plus, nous prévoyons de rendre open-source une partie de notre jeu de données auto-construit pour soutenir les recherches futures dans la communauté.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community