ChatPaper.aiChatPaper

Wereldmodellering met Probabilistische Structuurintegratie

World Modeling with Probabilistic Structure Integration

September 10, 2025
Auteurs: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

Samenvatting

We presenteren Probabilistic Structure Integration (PSI), een systeem voor het leren van rijkelijk bestuurbare en flexibel aanstuurbare wereldmodellen uit data. PSI bestaat uit een drie-stappen cyclus. De eerste stap, Probabilistische voorspelling, omvat het bouwen van een probabilistisch grafisch model Psi van de data, in de vorm van een random-access autoregressief sequentiemodel. Psi ondersteunt een complete set van geleerde conditionele verdelingen die de afhankelijkheid van variabelen in de data op elke andere set van variabelen beschrijven. In stap 2, Structuur extractie, laten we zien hoe onderliggende laagdimensionale eigenschappen in de data kunnen worden geëxtraheerd, wat overeenkomt met een diverse set van betekenisvolle "tussenliggende structuren", op een zero-shot manier via causale inferentie op Psi. Stap 3, Integratie, voltooit de cyclus door deze structuren om te zetten in nieuwe tokentypes die vervolgens continu worden teruggevoerd in het trainingsdieet als conditioneringssignalen en voorspellingsdoelen. Elke dergelijke cyclus vergroot de mogelijkheden van Psi, zowel door het beter modelleren van de onderliggende data, als door het creëren van nieuwe controlehandvatten – vergelijkbaar met een LLM-achtige universele prompttaal. We trainen een instantie van Psi op 1,4 biljoen tokens van internetvideodata; we gebruiken het om een verscheidenheid aan nuttige videovoorspellingen en begripsinferenties uit te voeren; we extraheren state-of-the-art optische stroming, zelfgesuperviseerde diepte en objectsegmentatie; en we gebruiken deze structuren om een volledige cyclus van voorspellingsverbeteringen te ondersteunen.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025