ChatPaper.aiChatPaper

WorldVLA: Op Weg naar een Autoregressief Actie Wereldmodel

WorldVLA: Towards Autoregressive Action World Model

June 26, 2025
Auteurs: Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen
cs.AI

Samenvatting

We presenteren WorldVLA, een autoregressief actiewereldmodel dat actie- en beeldbegrip en -generatie verenigt. Onze WorldVLA integreert het Vision-Language-Action (VLA)-model en het wereldmodel in één enkel raamwerk. Het wereldmodel voorspelt toekomstige beelden door zowel actie- als beeldbegrip te benutten, met als doel de onderliggende fysica van de omgeving te leren om de actiegeneratie te verbeteren. Tegelijkertijd genereert het actiemodel de daaropvolgende acties op basis van beeldobservaties, wat helpt bij visueel begrip en op zijn beurt de visuele generatie van het wereldmodel ondersteunt. We tonen aan dat WorldVLA losstaande actie- en wereldmodellen overtreft, wat de wederzijdse versterking tussen het wereldmodel en het actiemodel benadrukt. Daarnaast constateren we dat de prestaties van het actiemodel verslechteren bij het genereren van reeksen acties op een autoregressieve manier. Dit fenomeen kan worden toegeschreven aan het beperkte generalisatievermogen van het model voor actievoorspelling, wat leidt tot de doorvoering van fouten van eerdere acties naar latere. Om dit probleem aan te pakken, stellen we een aandachtmaskerstrategie voor die selectief eerdere acties maskeert tijdens de generatie van de huidige actie, wat een aanzienlijke prestatieverbetering laat zien in de taak van actiechunkgeneratie.
English
We present WorldVLA, an autoregressive action world model that unifies action and image understanding and generation. Our WorldVLA intergrates Vision-Language-Action (VLA) model and world model in one single framework. The world model predicts future images by leveraging both action and image understanding, with the purpose of learning the underlying physics of the environment to improve action generation. Meanwhile, the action model generates the subsequent actions based on image observations, aiding in visual understanding and in turn helps visual generation of the world model. We demonstrate that WorldVLA outperforms standalone action and world models, highlighting the mutual enhancement between the world model and the action model. In addition, we find that the performance of the action model deteriorates when generating sequences of actions in an autoregressive manner. This phenomenon can be attributed to the model's limited generalization capability for action prediction, leading to the propagation of errors from earlier actions to subsequent ones. To address this issue, we propose an attention mask strategy that selectively masks prior actions during the generation of the current action, which shows significant performance improvement in the action chunk generation task.
PDF363June 27, 2025