iFlyBot-VLA 技術報告書
iFlyBot-VLA Technical Report
November 1, 2025
著者: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI
要旨
我々は、新たなフレームワークの下で訓練された大規模視覚言語行動モデル「iFlyBot-VLA」を提案する。主な貢献は以下の通りである:(1) 大規模な人間及びロボット把持動作ビデオに基づいて徹底的に訓練された潜在行動モデル;(2) 訓練時に視覚言語モデルと行動エキスパートを共同で監督する二重階層型行動表現フレームワーク;(3) ロボット軌道データと一般QA・空間QAデータセットを組み合わせた混合訓練戦略により、VLMバックボーンの3D知覚・推論能力を効果的に強化。具体的には、VLMは二つの相補的な行動形式を予測するよう訓練される:異種身体構造にわたる把持データで事前学習された潜在行動モデルに基づく暗黙的高次意図を捉えた潜在行動、および連続制御信号の周波数領域変換により得られる明示的低次ダイナミクスを符号化した構造化離散行動トークンである。この二重監督により、言語・視覚・行動の表現空間が整合され、VLMが行動生成に直接寄与することが可能となる。LIBERO Frankaベンチマークにおける実験結果は本フレームワークの優位性を示し、実世界評価ではさらに、iFlyBot-VLAが多様で困難な把持タスクにおいて競争力のある成功率を達成することを実証した。加えて、今後のコミュニティ研究を支援するため、独自構築データセットの一部をオープンソース化する計画である。
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model
trained under a novel framework. The main contributions are listed as follows:
(1) a latent action model thoroughly trained on large-scale human and robotic
manipulation videos; (2) a dual-level action representation framework that
jointly supervises both the Vision-Language Model (VLM) and the action expert
during training; (3) a mixed training strategy that combines robot trajectory
data with general QA and spatial QA datasets, effectively enhancing the 3D
perceptual and reasoning capabilities of the VLM backbone. Specifically, the
VLM is trained to predict two complementary forms of actions: latent actions,
derived from our latent action model pretrained on cross-embodiment
manipulation data, which capture implicit high-level intentions; and structured
discrete action tokens, obtained through frequency-domain transformations of
continuous control signals, which encode explicit low-level dynamics. This dual
supervision aligns the representation spaces of language, vision, and action,
enabling the VLM to directly contribute to action generation. Experimental
results on the LIBERO Franka benchmark demonstrate the superiority of our
frame-work, while real-world evaluations further show that iFlyBot-VLA achieves
competitive success rates across diverse and challenging manipulation tasks.
Furthermore, we plan to open-source a portion of our self-constructed dataset
to support future research in the community