ChatPaper.aiChatPaper

Modellazione del Mondo con Integrazione Strutturale Probabilistica

World Modeling with Probabilistic Structure Integration

September 10, 2025
Autori: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

Abstract

Presentiamo Probabilistic Structure Integration (PSI), un sistema per apprendere modelli del mondo riccamente controllabili e flessibilmente promptabili dai dati. PSI è composto da un ciclo a tre fasi. La prima fase, Predizione probabilistica, prevede la costruzione di un modello grafico probabilistico Psi dei dati, sotto forma di modello sequenziale autoregressivo ad accesso casuale. Psi supporta un insieme completo di distribuzioni condizionate apprese che descrivono la dipendenza di qualsiasi variabile nei dati da qualsiasi altro insieme di variabili. Nella fase 2, Estrazione della struttura, mostriamo come estrarre proprietà sottostanti a bassa dimensionalità nei dati, corrispondenti a un insieme diversificato di "strutture intermedie" significative, in modo zero-shot tramite inferenza causale su Psi. La fase 3, Integrazione, completa il ciclo convertendo queste strutture in nuovi tipi di token che vengono poi continuamente reinseriti nella dieta di addestramento come segnali di condizionamento e obiettivi di predizione. Ogni ciclo di questo tipo amplia le capacità di Psi, consentendogli sia di modellare meglio i dati sottostanti, sia di creare nuovi punti di controllo – simili a un linguaggio universale di prompting simile a un LLM. Addestriamo un'istanza di Psi su 1,4 trilioni di token di dati video provenienti da internet; la utilizziamo per eseguire una varietà di inferenze utili sulla predizione e comprensione video; estraiamo flusso ottico all'avanguardia, profondità auto-supervisionata e segmentazione degli oggetti; e utilizziamo queste strutture per supportare un ciclo completo di miglioramenti predittivi.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025