F1: Un Modello Visione-Linguaggio-Azione che Collega Comprensione e Generazione alle Azioni

Abstract

L'esecuzione di task condizionati dal linguaggio in ambienti visivi dinamici rimane una sfida centrale nell'AI incarnata. I modelli Vision-Language-Action (VLA) esistenti adottano prevalentemente mappature reattive da stato ad azione, spesso portando a comportamenti miopi e scarsa robustezza in scene dinamiche. In questo articolo, introduciamo F1, un framework VLA preaddestrato che integra la generazione di previsioni visive nel processo decisionale. F1 adotta un'architettura Mixture-of-Transformer con moduli dedicati per la percezione, la generazione di previsioni e il controllo, colmando così il divario tra comprensione, generazione e azioni. Nel suo nucleo, F1 utilizza un meccanismo di previsione a scala successiva per sintetizzare previsioni visive condizionate dall'obiettivo come target di pianificazione espliciti. Prevedendo stati visivi futuri plausibili, F1 riformula la generazione di azioni come un problema di dinamica inversa guidata dalle previsioni, consentendo azioni che raggiungono implicitamente obiettivi visivi. Per dotare F1 di capacità robuste e generalizzabili, proponiamo una ricetta di addestramento in tre fasi su un ampio dataset che comprende oltre 330k traiettorie in 136 task diversi. Questo schema di addestramento migliora il ragionamento modulare e fornisce al modello previsioni visive trasferibili, cruciali per ambienti complessi e dinamici. Valutazioni estensive su task del mondo reale e benchmark di simulazione dimostrano che F1 supera costantemente gli approcci esistenti, ottenendo guadagni sostanziali sia nel tasso di successo dei task che nella capacità di generalizzazione.

English

Executing language-conditioned tasks in dynamic visual environments remains a central challenge in embodied AI. Existing Vision-Language-Action (VLA) models predominantly adopt reactive state-to-action mappings, often leading to short-sighted behaviors and poor robustness in dynamic scenes. In this paper, we introduce F1, a pretrained VLA framework which integrates the visual foresight generation into decision-making pipeline. F1 adopts a Mixture-of-Transformer architecture with dedicated modules for perception, foresight generation, and control, thereby bridging understanding, generation, and actions. At its core, F1 employs a next-scale prediction mechanism to synthesize goal-conditioned visual foresight as explicit planning targets. By forecasting plausible future visual states, F1 reformulates action generation as a foresight-guided inverse dynamics problem, enabling actions that implicitly achieve visual goals. To endow F1 with robust and generalizable capabilities, we propose a three-stage training recipe on an extensive dataset comprising over 330k trajectories across 136 diverse tasks. This training scheme enhances modular reasoning and equips the model with transferable visual foresight, which is critical for complex and dynamic environments. Extensive evaluations on real-world tasks and simulation benchmarks demonstrate F1 consistently outperforms existing approaches, achieving substantial gains in both task success rate and generalization ability.

F1: Un Modello Visione-Linguaggio-Azione che Collega Comprensione e Generazione alle Azioni

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

Abstract

Support