Бутстрэппинг мировых моделей на основе моделей динамики в мультимодальных фундаментальных моделях
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models
June 6, 2025
Авторы: Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
cs.AI
Аннотация
В какой степени модели, основанные на зрении и языке, обладают реалистичной моделью мира (наблюдение × действие → наблюдение) и моделью динамики (наблюдение × наблюдение → действие), когда действия выражены через язык? Хотя модели с открытым исходным кодом испытывают трудности с обеими задачами, мы обнаружили, что их тонкая настройка для получения модели динамики с использованием обучения с учителем значительно проще, чем получение модели мира. В свою очередь, модели динамики могут быть использованы для начальной настройки моделей мира с помощью двух основных стратегий: 1) слабо контролируемое обучение на синтетических данных и 2) проверка на этапе вывода. Во-первых, модель динамики может аннотировать действия для неразмеченных пар наблюдений видеокадров, чтобы расширить обучающие данные. Мы также предлагаем новую цель, в которой токены изображений в парах наблюдений взвешиваются по их важности, предсказанной моделью распознавания. Во-вторых, модели динамики могут назначать награды нескольким образцам модели мира для их оценки, эффективно направляя поиск на этапе вывода. Мы оцениваем модели мира, полученные с использованием обеих стратегий, через задачу редактирования изображений с акцентом на действия на наборе данных Aurora-Bench. Наша лучшая модель демонстрирует результаты, сопоставимые с современными моделями редактирования изображений, улучшая их на 15% на реальных подмножествах по оценке GPT4o-as-judge, а также достигая наилучшей средней оценки по результатам человеческой оценки на всех подмножествах Aurora-Bench.
English
To what extent do vision-and-language foundation models possess a realistic
world model (observation times action rightarrow observation) and a
dynamics model (observation times observation rightarrow action), when
actions are expressed through language? While open-source foundation models
struggle with both, we find that fine-tuning them to acquire a dynamics model
through supervision is significantly easier than acquiring a world model. In
turn, dynamics models can be used to bootstrap world models through two main
strategies: 1) weakly supervised learning from synthetic data and 2) inference
time verification. Firstly, the dynamics model can annotate actions for
unlabelled pairs of video frame observations to expand the training data. We
further propose a new objective, where image tokens in observation pairs are
weighted by their importance, as predicted by a recognition model. Secondly,
the dynamics models can assign rewards to multiple samples of the world model
to score them, effectively guiding search at inference time. We evaluate the
world models resulting from both strategies through the task of action-centric
image editing on Aurora-Bench. Our best model achieves a performance
competitive with state-of-the-art image editing models, improving on them by a
margin of 15% on real-world subsets according to GPT4o-as-judge, and
achieving the best average human evaluation across all subsets of Aurora-Bench.