F1: Un Modello Visione-Linguaggio-Azione che Collega Comprensione e Generazione alle Azioni
F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
September 8, 2025
Autori: Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang
cs.AI
Abstract
L'esecuzione di task condizionati dal linguaggio in ambienti visivi dinamici rimane una sfida centrale nell'AI incarnata. I modelli Vision-Language-Action (VLA) esistenti adottano prevalentemente mappature reattive da stato ad azione, spesso portando a comportamenti miopi e scarsa robustezza in scene dinamiche. In questo articolo, introduciamo F1, un framework VLA preaddestrato che integra la generazione di previsioni visive nel processo decisionale. F1 adotta un'architettura Mixture-of-Transformer con moduli dedicati per la percezione, la generazione di previsioni e il controllo, colmando così il divario tra comprensione, generazione e azioni. Nel suo nucleo, F1 utilizza un meccanismo di previsione a scala successiva per sintetizzare previsioni visive condizionate dall'obiettivo come target di pianificazione espliciti. Prevedendo stati visivi futuri plausibili, F1 riformula la generazione di azioni come un problema di dinamica inversa guidata dalle previsioni, consentendo azioni che raggiungono implicitamente obiettivi visivi. Per dotare F1 di capacità robuste e generalizzabili, proponiamo una ricetta di addestramento in tre fasi su un ampio dataset che comprende oltre 330k traiettorie in 136 task diversi. Questo schema di addestramento migliora il ragionamento modulare e fornisce al modello previsioni visive trasferibili, cruciali per ambienti complessi e dinamici. Valutazioni estensive su task del mondo reale e benchmark di simulazione dimostrano che F1 supera costantemente gli approcci esistenti, ottenendo guadagni sostanziali sia nel tasso di successo dei task che nella capacità di generalizzazione.
English
Executing language-conditioned tasks in dynamic visual environments remains a
central challenge in embodied AI. Existing Vision-Language-Action (VLA) models
predominantly adopt reactive state-to-action mappings, often leading to
short-sighted behaviors and poor robustness in dynamic scenes. In this paper,
we introduce F1, a pretrained VLA framework which integrates the visual
foresight generation into decision-making pipeline. F1 adopts a
Mixture-of-Transformer architecture with dedicated modules for perception,
foresight generation, and control, thereby bridging understanding, generation,
and actions. At its core, F1 employs a next-scale prediction mechanism to
synthesize goal-conditioned visual foresight as explicit planning targets. By
forecasting plausible future visual states, F1 reformulates action generation
as a foresight-guided inverse dynamics problem, enabling actions that
implicitly achieve visual goals. To endow F1 with robust and generalizable
capabilities, we propose a three-stage training recipe on an extensive dataset
comprising over 330k trajectories across 136 diverse tasks. This training
scheme enhances modular reasoning and equips the model with transferable visual
foresight, which is critical for complex and dynamic environments. Extensive
evaluations on real-world tasks and simulation benchmarks demonstrate F1
consistently outperforms existing approaches, achieving substantial gains in
both task success rate and generalization ability.