Avvio di Modelli Mondiali da Modelli Dinamici nei Modelli Fondamentali Multimodali
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
June 6, 2025
Autori: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI
Abstract
In che misura i modelli foundation visione-e-linguaggio possiedono un modello realistico del mondo (osservazione per azione freccia destra osservazione) e un modello dinamico (osservazione per osservazione freccia destra azione), quando le azioni sono espresse attraverso il linguaggio? Mentre i modelli foundation open-source faticano in entrambi i casi, scopriamo che il fine-tuning per acquisire un modello dinamico attraverso la supervisione è significativamente più semplice rispetto all'acquisizione di un modello del mondo. A loro volta, i modelli dinamici possono essere utilizzati per avviare modelli del mondo attraverso due strategie principali: 1) apprendimento debolmente supervisionato da dati sintetici e 2) verifica al momento dell'inferenza. In primo luogo, il modello dinamico può annotare le azioni per coppie non etichettate di osservazioni di frame video per espandere i dati di addestramento. Proponiamo inoltre un nuovo obiettivo, in cui i token delle immagini nelle coppie di osservazioni sono ponderati in base alla loro importanza, come previsto da un modello di riconoscimento. In secondo luogo, i modelli dinamici possono assegnare ricompense a più campioni del modello del mondo per valutarli, guidando efficacemente la ricerca al momento dell'inferenza. Valutiamo i modelli del mondo risultanti da entrambe le strategie attraverso il compito di editing di immagini centrato sull'azione su Aurora-Bench. Il nostro miglior modello raggiunge una performance competitiva con i modelli di editing di immagini all'avanguardia, migliorandoli di un margine del 15% sui sottoinsiemi del mondo reale secondo GPT4o-as-judge, e ottenendo la migliore valutazione umana media su tutti i sottoinsiemi di Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic
world model (observation times action rightarrow observation) and a
dynamics model (observation times observation rightarrow action), when
actions are expressed through language? While open-source foundation models
struggle with both, we find that fine-tuning them to acquire a dynamics model
through supervision is significantly easier than acquiring a world model. In
turn, dynamics models can be used to bootstrap world models through two main
strategies: 1) weakly supervised learning from synthetic data and 2) inference
time verification. Firstly, the dynamics model can annotate actions for
unlabelled pairs of video frame observations to expand the training data. We
further propose a new objective, where image tokens in observation pairs are
weighted by their importance, as predicted by a recognition model. Secondly,
the dynamics models can assign rewards to multiple samples of the world model
to score them, effectively guiding search at inference time. We evaluate the
world models resulting from both strategies through the task of action-centric
image editing on Aurora-Bench. Our best model achieves a performance
competitive with state-of-the-art image editing models, improving on them by a
margin of 15% on real-world subsets according to GPT4o-as-judge, and
achieving the best average human evaluation across all subsets of Aurora-Bench.