ChatPaper.aiChatPaper

iFlyBot-VLA Technischer Bericht

iFlyBot-VLA Technical Report

November 1, 2025
papers.authors: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
cs.AI

papers.abstract

Wir stellen iFlyBot-VLA vor, ein großskaliges Vision-Language-Action (VLA)-Modell, das unter einem neuartigen Framework trainiert wurde. Die Hauptbeiträge sind wie folgt aufgelistet: (1) ein latentes Aktionsmodell, das umfassend auf großskaligen menschlichen und robotischen Manipulationsvideos trainiert wurde; (2) ein duales Aktionsrepräsentationsframework, das sowohl das Vision-Language-Model (VLM) als auch den Aktions-Experten während des Trainings gemeinsam überwacht; (3) eine gemischte Trainingsstrategie, die Robotertrajektoriendaten mit allgemeinen QA- und räumlichen QA-Datensätzen kombiniert und dadurch effektiv die 3D-Wahrnehmungs- und Reasoning-Fähigkeiten des VLM-Backbones verbessert. Konkret wird das VLM darauf trainiert, zwei komplementäre Formen von Aktionen vorherzusagen: latente Aktionen, die von unserem auf Cross-Embodiment-Manipulationsdaten vortrainierten latenten Aktionsmodell abgeleitet werden und implizite hochlevelige Intentionen erfassen; und strukturierte diskrete Aktions-Tokens, die durch Frequenzbereichstransformationen kontinuierlicher Steuersignale gewonnen werden und explizite low-level Dynamiken kodieren. Diese duale Überwachung aligniert die Repräsentationsräume von Sprache, Vision und Aktion und ermöglicht es dem VLM, direkt zur Aktionsgenerierung beizutragen. Experimentelle Ergebnisse auf dem LIBERO-Franka-Benchmark demonstrieren die Überlegenheit unseres Frameworks, während Evaluationen in der realen Welt weiterhin zeigen, dass iFlyBot-VLA wettbewerbsfähige Erfolgsquoten über diverse und anspruchsvolle Manipulationsaufgaben hinweg erreicht. Darüber hinaus planen wir, einen Teil unseres selbst erstellten Datensatzes zu open-sourcen, um zukünftige Forschung in der Community zu unterstützen.
English
We introduce iFlyBot-VLA, a large-scale Vision-Language-Action (VLA) model trained under a novel framework. The main contributions are listed as follows: (1) a latent action model thoroughly trained on large-scale human and robotic manipulation videos; (2) a dual-level action representation framework that jointly supervises both the Vision-Language Model (VLM) and the action expert during training; (3) a mixed training strategy that combines robot trajectory data with general QA and spatial QA datasets, effectively enhancing the 3D perceptual and reasoning capabilities of the VLM backbone. Specifically, the VLM is trained to predict two complementary forms of actions: latent actions, derived from our latent action model pretrained on cross-embodiment manipulation data, which capture implicit high-level intentions; and structured discrete action tokens, obtained through frequency-domain transformations of continuous control signals, which encode explicit low-level dynamics. This dual supervision aligns the representation spaces of language, vision, and action, enabling the VLM to directly contribute to action generation. Experimental results on the LIBERO Franka benchmark demonstrate the superiority of our frame-work, while real-world evaluations further show that iFlyBot-VLA achieves competitive success rates across diverse and challenging manipulation tasks. Furthermore, we plan to open-source a portion of our self-constructed dataset to support future research in the community
PDF51December 2, 2025