Bootstrapping von Weltmodellen aus Dynamikmodellen in multimodalen Foundation-Modellen
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
June 6, 2025
Autoren: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI
Zusammenfassung
Inwiefern verfügen Vision-und-Sprache-Foundation-Modelle über ein realistisches Weltmodell (Beobachtung mal Aktion → Beobachtung) und ein Dynamikmodell (Beobachtung mal Beobachtung → Aktion), wenn Aktionen durch Sprache ausgedrückt werden? Während Open-Source-Foundation-Modelle bei beidem Schwierigkeiten haben, stellen wir fest, dass das Feinabstimmen dieser Modelle, um ein Dynamikmodell durch Überwachung zu erlernen, deutlich einfacher ist als das Erlernen eines Weltmodells. Dynamikmodelle können wiederum verwendet werden, um Weltmodelle durch zwei Hauptstrategien zu bootstrappen: 1) schwach überwachtes Lernen aus synthetischen Daten und 2) Verifikation zur Inferenzzeit. Erstens kann das Dynamikmodell Aktionen für unmarkierte Paare von Videobildbeobachtungen annotieren, um die Trainingsdaten zu erweitern. Wir schlagen außerdem ein neues Ziel vor, bei dem Bild-Token in Beobachtungspaaren nach ihrer Wichtigkeit gewichtet werden, wie sie von einem Erkennungsmodell vorhergesagt wird. Zweitens können Dynamikmodelle Belohnungen mehreren Stichproben des Weltmodells zuweisen, um sie zu bewerten und effektiv die Suche zur Inferenzzeit zu steuern. Wir bewerten die Weltmodelle, die aus beiden Strategien resultieren, durch die Aufgabe der aktionszentrierten Bildbearbeitung auf Aurora-Bench. Unser bestes Modell erzielt eine Leistung, die mit state-of-the-art Bildbearbeitungsmodellen konkurriert, und übertrifft diese auf realen Teilmengen um eine Marge von 15 % laut GPT4o-als-Richter, während es die beste durchschnittliche menschliche Bewertung über alle Teilmengen von Aurora-Bench erreicht.
English
To what extent do vision-and-language foundation models possess a realistic
world model (observation times action rightarrow observation) and a
dynamics model (observation times observation rightarrow action), when
actions are expressed through language? While open-source foundation models
struggle with both, we find that fine-tuning them to acquire a dynamics model
through supervision is significantly easier than acquiring a world model. In
turn, dynamics models can be used to bootstrap world models through two main
strategies: 1) weakly supervised learning from synthetic data and 2) inference
time verification. Firstly, the dynamics model can annotate actions for
unlabelled pairs of video frame observations to expand the training data. We
further propose a new objective, where image tokens in observation pairs are
weighted by their importance, as predicted by a recognition model. Secondly,
the dynamics models can assign rewards to multiple samples of the world model
to score them, effectively guiding search at inference time. We evaluate the
world models resulting from both strategies through the task of action-centric
image editing on Aurora-Bench. Our best model achieves a performance
competitive with state-of-the-art image editing models, improving on them by a
margin of 15% on real-world subsets according to GPT4o-as-judge, and
achieving the best average human evaluation across all subsets of Aurora-Bench.