BagelVLA : Amélioration de la manipulation à long horizon par une génération entrelacée vision-langage-action
BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation
February 10, 2026
papers.authors: Yucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen
cs.AI
papers.abstract
Doter les agents incarnés de la capacité à raisonner sur les tâches, à anticiper les résultats physiques et à générer des actions précises est essentiel pour la manipulation à usage général. Bien que les modèles Vision-Langage-Action (VLA) récents aient tiré parti de modèles de fond pré-entraînés, ils se concentrent généralement soit sur la planification linguistique, soit sur la prévision visuelle de manière isolée. Ces méthodes intègrent rarement les deux capacités simultanément pour guider la génération d'actions, ce qui entraîne des performances sous-optimales dans les tâches de manipulation complexes et à long horizon. Pour combler cette lacune, nous proposons BagelVLA, un modèle unifié qui intègre la planification linguistique, la prévision visuelle et la génération d'actions dans un cadre unique. Initialisé à partir d'un modèle génératif et de compréhension unifié pré-entraîné, BagelVLA est entraîné à entrelacer le raisonnement textuel et la prédiction visuelle directement dans la boucle d'exécution des actions. Pour coupler efficacement ces modalités, nous introduisons le Guidage par Flux Résiduel (Residual Flow Guidance, RFG), qui s'initialise à partir de l'observation courante et utilise un débruitage en une seule étape pour extraire des caractéristiques visuelles prédictives, guidant ainsi la génération d'actions avec une latence minimale. Des expériences approfondies démontrent que BagelVLA surpasse les méthodes de référence existantes par une marge significative sur plusieurs benchmarks simulés et réels, en particulier dans les tâches nécessitant un raisonnement en plusieurs étapes.
English
Equipping embodied agents with the ability to reason about tasks, foresee physical outcomes, and generate precise actions is essential for general-purpose manipulation. While recent Vision-Language-Action (VLA) models have leveraged pre-trained foundation models, they typically focus on either linguistic planning or visual forecasting in isolation. These methods rarely integrate both capabilities simultaneously to guide action generation, leading to suboptimal performance in complex, long-horizon manipulation tasks. To bridge this gap, we propose BagelVLA, a unified model that integrates linguistic planning, visual forecasting, and action generation within a single framework. Initialized from a pretrained unified understanding and generative model, BagelVLA is trained to interleave textual reasoning and visual prediction directly into the action execution loop. To efficiently couple these modalities, we introduce Residual Flow Guidance (RFG), which initializes from current observation and leverages single-step denoising to extract predictive visual features, guiding action generation with minimal latency. Extensive experiments demonstrate that BagelVLA outperforms existing baselines by a significant margin on multiple simulated and real-world benchmarks, particularly in tasks requiring multi-stage reasoning.