Технический отчет iFlyBot-VLA
iFlyBot-VLA Technical Report
November 1, 2025
Авторы: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
Аннотация
Мы представляем iFlyBot-VLA — крупномасштабную модель «Vision-Language-Action» (VLA), обученную в рамках новой архитектуры. Основные вклады работы заключаются в следующем:
(1) латентная модель действий, всесторонне обученная на обширных видео с манипуляциями человека и робота;
(2) двухуровневая система представления действий, которая совместно управляет как моделью «Vision-Language Model» (VLM), так и экземпляром действий в процессе обучения;
(3) смешанная стратегия обучения, объединяющая данные траекторий робота с наборами данных общего QA и пространственного QA, что эффективно усиливает 3D-восприятие и логические способности базовой VLM.
В частности, VLM обучается прогнозировать две взаимодополняющие формы действий: латентные действия, полученные из нашей латентной модели действий, предварительно обученной на кросс-эмбодиментных данных манипуляций, которые фиксируют неявные высокоуровневые намерения; и структурированные дискретные токены действий, получаемые посредством частотно-доменных преобразований непрерывных управляющих сигналов, которые кодируют явные низкоуровневые динамики. Такое двойное управление выравнивает пространства представлений языка, зрения и действий, позволяя VLM напрямую участвовать в генерации действий.
Результаты экспериментов на бенчмарке LIBERO Franka демонстрируют превосходство нашей архитектуры, в то время как оценки в реальных условиях дополнительно показывают, что iFlyBot-VLA достигает конкурентоспособных показателей успешности в разнообразных и сложных задачах манипулирования. Кроме того, мы планируем открыть часть нашего самостоятельно собранного набора данных для поддержки будущих исследований в сообществе.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community