ChatPaper.aiChatPaper

Amorçage de modèles du monde à partir de modèles de dynamique dans les modèles de fondation multimodaux

Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

June 6, 2025
Auteurs: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI

Résumé

Dans quelle mesure les modèles de base vision-et-langage possèdent-ils un modèle du monde réaliste (observation fois action → observation) et un modèle de dynamique (observation fois observation → action), lorsque les actions sont exprimées par le langage ? Alors que les modèles de base open-source peinent dans les deux cas, nous constatons qu'il est nettement plus facile de les affiner pour acquérir un modèle de dynamique par supervision que pour acquérir un modèle du monde. À leur tour, les modèles de dynamique peuvent être utilisés pour amorcer des modèles du monde grâce à deux stratégies principales : 1) l'apprentissage faiblement supervisé à partir de données synthétiques et 2) la vérification au moment de l'inférence. Premièrement, le modèle de dynamique peut annoter les actions pour des paires d'observations de frames vidéo non étiquetées afin d'étendre les données d'entraînement. Nous proposons en outre un nouvel objectif, où les tokens d'image dans les paires d'observations sont pondérés par leur importance, telle que prédite par un modèle de reconnaissance. Deuxièmement, les modèles de dynamique peuvent attribuer des récompenses à plusieurs échantillons du modèle du monde pour les noter, guidant ainsi efficacement la recherche au moment de l'inférence. Nous évaluons les modèles du monde résultant de ces deux stratégies à travers la tâche d'édition d'images centrée sur l'action sur Aurora-Bench. Notre meilleur modèle atteint une performance compétitive avec les modèles d'édition d'images de pointe, les surpassant de 15 % sur les sous-ensembles du monde réel selon GPT4o-comme-juge, et obtenant la meilleure évaluation humaine moyenne sur tous les sous-ensembles d'Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic world model (observation times action rightarrow observation) and a dynamics model (observation times observation rightarrow action), when actions are expressed through language? While open-source foundation models struggle with both, we find that fine-tuning them to acquire a dynamics model through supervision is significantly easier than acquiring a world model. In turn, dynamics models can be used to bootstrap world models through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, the dynamics model can annotate actions for unlabelled pairs of video frame observations to expand the training data. We further propose a new objective, where image tokens in observation pairs are weighted by their importance, as predicted by a recognition model. Secondly, the dynamics models can assign rewards to multiple samples of the world model to score them, effectively guiding search at inference time. We evaluate the world models resulting from both strategies through the task of action-centric image editing on Aurora-Bench. Our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin of 15% on real-world subsets according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
PDF112June 10, 2025