ChatPaper.aiChatPaper

Моделирование мира с интеграцией вероятностных структур

World Modeling with Probabilistic Structure Integration

September 10, 2025
Авторы: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

Аннотация

Мы представляем Probabilistic Structure Integration (PSI) — систему для обучения богато управляемых и гибко управляемых через запросы моделей мира на основе данных. PSI состоит из трехшагового цикла. Первый шаг, вероятностное предсказание, включает построение вероятностной графической модели Psi данных в форме модели авторегрессивной последовательности с произвольным доступом. Psi поддерживает полный набор изученных условных распределений, описывающих зависимость любых переменных в данных от любого другого набора переменных. На втором шаге, извлечение структуры, мы показываем, как извлекать низкоразмерные свойства данных, соответствующие разнообразному набору значимых "промежуточных структур", в режиме zero-shot с помощью причинного вывода на основе Psi. Третий шаг, интеграция, завершает цикл, преобразуя эти структуры в новые типы токенов, которые затем постоянно включаются в процесс обучения в качестве сигналов условности и целей предсказания. Каждый такой цикл расширяет возможности Psi, позволяя ей лучше моделировать исходные данные и создавая новые элементы управления — подобно универсальному языку запросов, аналогичному LLM. Мы обучаем экземпляр Psi на 1,4 триллионах токенов данных интернет-видео; используем его для выполнения различных полезных задач предсказания и понимания видео; извлекаем передовые оптические потоки, самоконтролируемую глубину и сегментацию объектов; и используем эти структуры для поддержки полного цикла улучшений предсказания.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025