Arranque de Modelos del Mundo a partir de Modelos de Dinámica en Modelos Fundacionales Multimodales
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
June 6, 2025
Autores: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI
Resumen
¿Hasta qué punto los modelos fundamentales de visión y lenguaje poseen un modelo del mundo realista (observación por acción implica observación) y un modelo de dinámica (observación por observación implica acción), cuando las acciones se expresan a través del lenguaje? Mientras que los modelos fundamentales de código abierto tienen dificultades con ambos, encontramos que ajustarlos finamente para adquirir un modelo de dinámica mediante supervisión es significativamente más fácil que adquirir un modelo del mundo. A su vez, los modelos de dinámica pueden utilizarse para impulsar modelos del mundo a través de dos estrategias principales: 1) aprendizaje débilmente supervisado a partir de datos sintéticos y 2) verificación en tiempo de inferencia. En primer lugar, el modelo de dinámica puede anotar acciones para pares de observaciones de fotogramas de video sin etiquetar para expandir los datos de entrenamiento. Además, proponemos un nuevo objetivo en el que los tokens de imagen en pares de observaciones se ponderan según su importancia, según lo predicho por un modelo de reconocimiento. En segundo lugar, los modelos de dinámica pueden asignar recompensas a múltiples muestras del modelo del mundo para puntuarlas, guiando efectivamente la búsqueda en tiempo de inferencia. Evaluamos los modelos del mundo resultantes de ambas estrategias mediante la tarea de edición de imágenes centrada en acciones en Aurora-Bench. Nuestro mejor modelo logra un rendimiento competitivo con los modelos de edición de imágenes de última generación, superándolos en un margen del 15% en subconjuntos del mundo real según GPT4o como juez, y alcanzando la mejor evaluación humana promedio en todos los subconjuntos de Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic
world model (observation times action rightarrow observation) and a
dynamics model (observation times observation rightarrow action), when
actions are expressed through language? While open-source foundation models
struggle with both, we find that fine-tuning them to acquire a dynamics model
through supervision is significantly easier than acquiring a world model. In
turn, dynamics models can be used to bootstrap world models through two main
strategies: 1) weakly supervised learning from synthetic data and 2) inference
time verification. Firstly, the dynamics model can annotate actions for
unlabelled pairs of video frame observations to expand the training data. We
further propose a new objective, where image tokens in observation pairs are
weighted by their importance, as predicted by a recognition model. Secondly,
the dynamics models can assign rewards to multiple samples of the world model
to score them, effectively guiding search at inference time. We evaluate the
world models resulting from both strategies through the task of action-centric
image editing on Aurora-Bench. Our best model achieves a performance
competitive with state-of-the-art image editing models, improving on them by a
margin of 15% on real-world subsets according to GPT4o-as-judge, and
achieving the best average human evaluation across all subsets of Aurora-Bench.