BagelVLA: Verbetering van manipulatie op lange termijn via onderling samenhangende visie-taal-actie-generatie

Samenvatting

Het uitrusten van belichaamde agents met het vermogen om te redeneren over taken, fysieke uitkomsten te voorzien en precieze acties te genereren, is essentieel voor algemeen inzetbare manipulatie. Hoewel recente Vision-Language-Action (VLA)-modellen gebruikmaken van vooraf getrainde foundation-modellen, richten ze zich doorgaans afzonderlijk op óf linguïstische planning óf visuele voorspelling. Deze methoden integreren zelden beide capaciteiten gelijktijdig om actiegeneratie te sturen, wat leidt tot suboptimale prestaties bij complexe, langetermijnmanipulatietaken. Om deze kloof te overbruggen, stellen we BagelVLA voor, een uniform model dat linguïstische planning, visuele voorspelling en actiegeneratie integreert binnen een enkel kader. Geïnitialiseerd vanuit een voorgetraind uniform begrips- en generatief model, wordt BagelVLA getraind om tekstueel redeneren en visuele voorspelling direct te verweven in de actie-uitvoeringslus. Om deze modaliteiten efficiënt te koppelen, introduceren we Residual Flow Guidance (RFG), dat initialiseert vanuit de huidige observatie en gebruikmaakt van enkelstaps-denoising om voorspellende visuele kenmerken te extraheren, waardoor actiegeneratie met minimale latentie wordt gestuurd. Uitgebreide experimenten tonen aan dat BagelVLA bestaande baseline-methoden met een aanzienlijke marge overtreft op meerdere gesimuleerde en real-world benchmarks, met name bij taken die multi-staps redeneren vereisen.

English

Equipping embodied agents with the ability to reason about tasks, foresee physical outcomes, and generate precise actions is essential for general-purpose manipulation. While recent Vision-Language-Action (VLA) models have leveraged pre-trained foundation models, they typically focus on either linguistic planning or visual forecasting in isolation. These methods rarely integrate both capabilities simultaneously to guide action generation, leading to suboptimal performance in complex, long-horizon manipulation tasks. To bridge this gap, we propose BagelVLA, a unified model that integrates linguistic planning, visual forecasting, and action generation within a single framework. Initialized from a pretrained unified understanding and generative model, BagelVLA is trained to interleave textual reasoning and visual prediction directly into the action execution loop. To efficiently couple these modalities, we introduce Residual Flow Guidance (RFG), which initializes from current observation and leverages single-step denoising to extract predictive visual features, guiding action generation with minimal latency. Extensive experiments demonstrate that BagelVLA outperforms existing baselines by a significant margin on multiple simulated and real-world benchmarks, particularly in tasks requiring multi-stage reasoning.

BagelVLA: Verbetering van manipulatie op lange termijn via onderling samenhangende visie-taal-actie-generatie

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Samenvatting

Support