Inicialização de Modelos de Mundo a partir de Modelos de Dinâmica em Modelos de Fundação Multimodal
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
June 6, 2025
Autores: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI
Resumo
Até que ponto os modelos de base visão-e-linguagem possuem um modelo de mundo realista (observação vezes ação → observação) e um modelo de dinâmica (observação vezes observação → ação), quando as ações são expressas por meio de linguagem? Enquanto os modelos de base de código aberto enfrentam dificuldades em ambos, descobrimos que ajustá-los para adquirir um modelo de dinâmica por meio de supervisão é significativamente mais fácil do que adquirir um modelo de mundo. Por sua vez, os modelos de dinâmica podem ser usados para impulsionar modelos de mundo por meio de duas estratégias principais: 1) aprendizado fracamente supervisionado a partir de dados sintéticos e 2) verificação no momento da inferência. Primeiramente, o modelo de dinâmica pode anotar ações para pares não rotulados de observações de quadros de vídeo, expandindo os dados de treinamento. Propomos ainda um novo objetivo, onde os tokens de imagem em pares de observações são ponderados por sua importância, conforme previsto por um modelo de reconhecimento. Em segundo lugar, os modelos de dinâmica podem atribuir recompensas a múltiplas amostras do modelo de mundo para pontuá-las, orientando efetivamente a busca no momento da inferência. Avaliamos os modelos de mundo resultantes de ambas as estratégias por meio da tarefa de edição de imagens centrada em ações no Aurora-Bench. Nosso melhor modelo alcança um desempenho competitivo com os modelos de edição de imagens de última geração, superando-os em uma margem de 15% em subconjuntos do mundo real de acordo com o GPT4o como juiz, e obtendo a melhor avaliação humana média em todos os subconjuntos do Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic
world model (observation times action rightarrow observation) and a
dynamics model (observation times observation rightarrow action), when
actions are expressed through language? While open-source foundation models
struggle with both, we find that fine-tuning them to acquire a dynamics model
through supervision is significantly easier than acquiring a world model. In
turn, dynamics models can be used to bootstrap world models through two main
strategies: 1) weakly supervised learning from synthetic data and 2) inference
time verification. Firstly, the dynamics model can annotate actions for
unlabelled pairs of video frame observations to expand the training data. We
further propose a new objective, where image tokens in observation pairs are
weighted by their importance, as predicted by a recognition model. Secondly,
the dynamics models can assign rewards to multiple samples of the world model
to score them, effectively guiding search at inference time. We evaluate the
world models resulting from both strategies through the task of action-centric
image editing on Aurora-Bench. Our best model achieves a performance
competitive with state-of-the-art image editing models, improving on them by a
margin of 15% on real-world subsets according to GPT4o-as-judge, and
achieving the best average human evaluation across all subsets of Aurora-Bench.