F1: 이해와 생성에서 행동으로 이어지는 비전-언어-행동 통합 모델
F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
September 8, 2025
저자: Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang
cs.AI
초록
동적 시각 환경에서 언어 조건화 작업을 실행하는 것은 구현형 AI의 핵심 과제로 남아 있습니다. 기존의 Vision-Language-Action (VLA) 모델은 주로 반응적인 상태-행동 매핑을 채택하여, 종종 근시안적인 행동과 동적 장면에서의 낮은 견고성을 초래합니다. 본 논문에서는 시각적 예측 생성을 의사결정 파이프라인에 통합한 사전 학습된 VLA 프레임워크인 F1을 소개합니다. F1은 인지, 예측 생성, 제어를 위한 전용 모듈을 갖춘 Mixture-of-Transformer 아키텍처를 채택함으로써 이해, 생성, 행동을 연결합니다. F1의 핵심은 목표 조건화된 시각적 예측을 명시적 계획 목표로 합성하기 위한 다음 스케일 예측 메커니즘을 사용합니다. 가능한 미래 시각 상태를 예측함으로써, F1은 행동 생성을 예측 기반 역동 역학 문제로 재구성하여, 시각적 목표를 암묵적으로 달성하는 행동을 가능하게 합니다. F1에 견고하고 일반화 가능한 능력을 부여하기 위해, 136가지 다양한 작업에 걸친 33만 개 이상의 궤적을 포함한 광범위한 데이터셋에서 3단계 학습 레시피를 제안합니다. 이 학습 방식은 모듈형 추론을 강화하고, 복잡하고 동적인 환경에 필수적인 전이 가능한 시각적 예측 능력을 모델에 제공합니다. 실제 작업과 시뮬레이션 벤치마크에 대한 광범위한 평가를 통해 F1이 기존 접근법을 지속적으로 능가하며, 작업 성공률과 일반화 능력 모두에서 상당한 향상을 달성함을 입증합니다.
English
Executing language-conditioned tasks in dynamic visual environments remains a
central challenge in embodied AI. Existing Vision-Language-Action (VLA) models
predominantly adopt reactive state-to-action mappings, often leading to
short-sighted behaviors and poor robustness in dynamic scenes. In this paper,
we introduce F1, a pretrained VLA framework which integrates the visual
foresight generation into decision-making pipeline. F1 adopts a
Mixture-of-Transformer architecture with dedicated modules for perception,
foresight generation, and control, thereby bridging understanding, generation,
and actions. At its core, F1 employs a next-scale prediction mechanism to
synthesize goal-conditioned visual foresight as explicit planning targets. By
forecasting plausible future visual states, F1 reformulates action generation
as a foresight-guided inverse dynamics problem, enabling actions that
implicitly achieve visual goals. To endow F1 with robust and generalizable
capabilities, we propose a three-stage training recipe on an extensive dataset
comprising over 330k trajectories across 136 diverse tasks. This training
scheme enhances modular reasoning and equips the model with transferable visual
foresight, which is critical for complex and dynamic environments. Extensive
evaluations on real-world tasks and simulation benchmarks demonstrate F1
consistently outperforms existing approaches, achieving substantial gains in
both task success rate and generalization ability.