Informe Técnico iFlyBot-VLA
iFlyBot-VLA Technical Report
November 1, 2025
Autores: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
Resumen
Presentamos iFlyBot-VLA, un modelo a gran escala de Visión-Lenguaje-Acción (VLA) entrenado bajo un marco novedoso. Las principales contribuciones se enumeran a continuación: (1) un modelo de acción latente entrenado exhaustivamente sobre videos a gran escala de manipulaciones humanas y robóticas; (2) un marco de representación de acción de doble nivel que supervisa conjuntamente tanto el Modelo de Visión-Lenguaje (VLM) como el experto en acción durante el entrenamiento; (3) una estrategia de entrenamiento mixto que combina datos de trayectorias robóticas con conjuntos de datos generales de Preguntas-Respuestas (QA) y de QA espacial, mejorando efectivamente las capacidades de percepción 3D y razonamiento del backbone del VLM. Específicamente, el VLM se entrena para predecir dos formas complementarias de acciones: acciones latentes, derivadas de nuestro modelo de acción latente preentrenado en datos de manipulación de encarnación cruzada, que capturan intenciones implícitas de alto nivel; y tokens de acción discretos estructurados, obtenidos mediante transformaciones en el dominio de la frecuencia de señales de control continuas, que codifican dinámicas explícitas de bajo nivel. Esta supervisión dual alinea los espacios de representación del lenguaje, la visión y la acción, permitiendo que el VLM contribuya directamente a la generación de acciones. Los resultados experimentales en el benchmark LIBERO Franka demuestran la superioridad de nuestro marco, mientras que las evaluaciones en el mundo real muestran además que iFlyBot-VLA logra tasas de éxito competitivas en diversas tareas de manipulación desafiantes. Además, planeamos hacer de código abierto una porción de nuestro conjunto de datos de construcción propia para apoyar futuras investigaciones en la comunidad.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community