ChatPaper.aiChatPaper

Modélisation du monde avec intégration de structures probabilistes

World Modeling with Probabilistic Structure Integration

September 10, 2025
papers.authors: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

papers.abstract

Nous présentons Probabilistic Structure Integration (PSI), un système pour apprendre des modèles du monde riches en contrôlabilité et flexibles à solliciter à partir de données. PSI repose sur un cycle en trois étapes. La première étape, la prédiction probabiliste, consiste à construire un modèle graphique probabiliste Psi des données, sous la forme d'un modèle séquentiel autorégressif à accès aléatoire. Psi intègre un ensemble complet de distributions conditionnelles apprises décrivant la dépendance de toute variable des données par rapport à tout autre ensemble de variables. Dans l'étape 2, l'extraction de structure, nous montrons comment extraire des propriétés sous-jacentes de faible dimension dans les données, correspondant à un ensemble diversifié de "structures intermédiaires" significatives, de manière zero-shot via l'inférence causale sur Psi. L'étape 3, l'intégration, complète le cycle en convertissant ces structures en nouveaux types de tokens qui sont ensuite continuellement réintégrés dans le régime d'entraînement comme signaux de conditionnement et cibles de prédiction. Chaque cycle de ce type augmente les capacités de Psi, lui permettant à la fois de mieux modéliser les données sous-jacentes et de créer de nouveaux leviers de contrôle - semblables à un langage universel de sollicitation de type LLM. Nous avons entraîné une instance de Psi sur 1,4 trillion de tokens de données vidéo issues d'internet ; nous l'utilisons pour effectuer diverses inférences utiles en prédiction et compréhension vidéo ; nous extrayons des estimations de flux optique, de profondeur auto-supervisée et de segmentation d'objets à l'état de l'art ; et nous utilisons ces structures pour soutenir un cycle complet d'améliorations prédictives.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025