ChatPaper.aiChatPaper

Bootstrapping Wereldmodellen vanuit Dynamische Modellen in Multimodale Fundamentmodellen

Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

June 6, 2025
Auteurs: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI

Samenvatting

In hoeverre beschikken visie-en-taal foundation-modellen over een realistisch wereldmodel (observatie maal actie → observatie) en een dynamisch model (observatie maal observatie → actie), wanneer acties via taal worden uitgedrukt? Hoewel open-source foundation-modellen moeite hebben met beide, ontdekken we dat het fine-tunen ervan om een dynamisch model te verkrijgen door middel van supervisie aanzienlijk eenvoudiger is dan het verkrijgen van een wereldmodel. Op hun beurt kunnen dynamische modellen worden gebruikt om wereldmodellen te bootstrappen via twee hoofdstrategieën: 1) zwak begeleid leren van synthetische data en 2) verificatie tijdens inferentie. Ten eerste kan het dynamische model acties annoteren voor ongelabelde paren van video-frame-observaties om de trainingsdata uit te breiden. We stellen verder een nieuw doel voor, waarbij beeldtokens in observatieparen worden gewogen op basis van hun belangrijkheid, zoals voorspeld door een herkenningsmodel. Ten tweede kunnen dynamische modellen beloningen toekennen aan meerdere samples van het wereldmodel om ze te scoren, wat effectief de zoektocht tijdens inferentie begeleidt. We evalueren de wereldmodellen die uit beide strategieën voortkomen via de taak van actiegerichte beeldbewerking op Aurora-Bench. Ons beste model behaalt een prestatie die concurreert met state-of-the-art beeldbewerkingsmodellen, en verbetert deze met een marge van 15% op real-world subsets volgens GPT4o-as-judge, en behaalt de beste gemiddelde menselijke evaluatie over alle subsets van Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic world model (observation times action rightarrow observation) and a dynamics model (observation times observation rightarrow action), when actions are expressed through language? While open-source foundation models struggle with both, we find that fine-tuning them to acquire a dynamics model through supervision is significantly easier than acquiring a world model. In turn, dynamics models can be used to bootstrap world models through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, the dynamics model can annotate actions for unlabelled pairs of video frame observations to expand the training data. We further propose a new objective, where image tokens in observation pairs are weighted by their importance, as predicted by a recognition model. Secondly, the dynamics models can assign rewards to multiple samples of the world model to score them, effectively guiding search at inference time. We evaluate the world models resulting from both strategies through the task of action-centric image editing on Aurora-Bench. Our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin of 15% on real-world subsets according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
PDF132June 10, 2025