Rapporto Tecnico iFlyBot-VLA
iFlyBot-VLA Technical Report
November 1, 2025
Autori: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
Abstract
Presentiamo iFlyBot-VLA, un modello su larga scala Visione-Linguaggio-Azione (VLA) addestrato con un framework innovativo. I principali contributi sono i seguenti:
(1) un modello di azione latente addestrato approfonditamente su video su larga scala di manipolazioni umane e robotiche;
(2) un framework di rappresentazione dell'azione a doppio livello che supervisiona congiuntamente sia il Modello Visione-Linguaggio (VLM) che l'esperto d'azione durante l'addestramento;
(3) una strategia di addestramento mista che combina dati di traiettoria robotica con dataset generali di Domande-Risposte (QA) e di QA spaziale, potenziando efficacemente le capacità percettive 3D e di ragionamento del backbone VLM.
Nello specifico, il VLM è addestrato a prevedere due forme complementari di azioni: azioni latenti, derivate dal nostro modello di azione latente pre-addestrato su dati di manipolazione cross-embodiment, che catturano intenzioni implicite di alto livello; e token d'azione discreti strutturati, ottenuti tramite trasformazioni nel dominio della frequenza di segnali di controllo continui, che codificano dinamiche esplicite di basso livello. Questa doppia supervisione allinea gli spazi di rappresentazione di linguaggio, visione e azione, consentendo al VLM di contribuire direttamente alla generazione delle azioni. I risultati sperimentali sul benchmark LIBERO Franka dimostrano la superiorità del nostro framework, mentre le valutazioni nel mondo reale mostrano ulteriormente che iFlyBot-VLA raggiunge tassi di successo competitivi in vari e impegnativi compiti di manipolazione. Inoltre, prevediamo di rendere open-source una parte del nostro dataset auto-costruito per supportare la ricerca futura nella comunità.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community