Relatório Técnico iFlyBot-VLA

Resumo

Apresentamos o iFlyBot-VLA, um modelo de grande escala Visão-Linguagem-Ação (VLA) treinado sob uma nova estrutura. As principais contribuições são listadas a seguir: (1) um modelo de ação latente treinado minuciosamente em vídeos de manipulação humana e robótica em grande escala; (2) uma estrutura de representação de ação de duplo nível que supervisiona conjuntamente tanto o Modelo de Visão-Linguagem (VLM) quanto o especialista em ação durante o treinamento; (3) uma estratégia de treinamento misto que combina dados de trajetória robótica com conjuntos de dados de QA geral e QA espacial, aprimorando efetivamente as capacidades de percepção 3D e raciocínio da espinha dorsal do VLM. Especificamente, o VLM é treinado para prever duas formas complementares de ações: ações latentes, derivadas do nosso modelo de ação latente pré-treinado em dados de manipulação de embodimento cruzado, que capturam intenções de alto nível implícitas; e tokens de ação discretos estruturados, obtidos por meio de transformações no domínio da frequência de sinais de controle contínuos, que codificam dinâmicas de baixo nível explícitas. Esta supervisão dupla alinha os espaços de representação da linguagem, visão e ação, permitindo que o VLM contribua diretamente para a geração de ações. Resultados experimentais no benchmark LIBERO Franka demonstram a superioridade de nossa estrutura, enquanto avaliações no mundo real mostram ainda que o iFlyBot-VLA alcança taxas de sucesso competitivas em diversas tarefas de manipulação desafiadoras. Além disso, planejamos disponibilizar como código aberto uma parte do nosso conjunto de dados autoconstruído para apoiar pesquisas futuras na comunidade.

English

We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model trained under a novel framework. The main contributions are listed as follows: (1) a latent action model thoroughly trained on large-scale human and robotic manipulation videos; (2) a dual-level action representation framework that jointly supervises both the Vision-Language Model (VLM) and the action expert during training; (3) a mixed training strategy that combines robot trajectory data with general QA and spatial QA datasets, effectively enhancing the 3D perceptual and reasoning capabilities of the VLM backbone. Specifically, the VLM is trained to predict two complementary forms of actions: latent actions, derived from our latent action model pretrained on cross-embodiment manipulation data, which capture implicit high-level intentions; and structured discrete action tokens, obtained through frequency-domain transformations of continuous control signals, which encode explicit low-level dynamics. This dual supervision aligns the representation spaces of language, vision, and action, enabling the VLM to directly contribute to action generation. Experimental results on the LIBERO Franka benchmark demonstrate the superiority of our frame-work, while real-world evaluations further show that iFlyBot-VLA achieves competitive success rates across diverse and challenging manipulation tasks. Furthermore, we plan to open-source a portion of our self-constructed dataset to support future research in the community

Relatório Técnico iFlyBot-VLA

iFlyBot-VLA Technical Report

Resumo

Support