ChatPaper.aiChatPaper

Weltmodellierung mit probabilistischer Strukturintegration

World Modeling with Probabilistic Structure Integration

September 10, 2025
papers.authors: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

papers.abstract

Wir stellen Probabilistic Structure Integration (PSI) vor, ein System zum Erlernen von reichhaltig steuerbaren und flexibel promptbaren Weltmodellen aus Daten. PSI besteht aus einem dreistufigen Zyklus. Der erste Schritt, Probabilistische Vorhersage, beinhaltet den Aufbau eines probabilistischen grafischen Modells Psi der Daten in Form eines zufallszugriffsfähigen autoregressiven Sequenzmodells. Psi unterstützt einen vollständigen Satz gelerntet bedingter Verteilungen, die die Abhängigkeit beliebiger Variablen in den Daten von jeder anderen Menge von Variablen beschreiben. In Schritt 2, Strukturextraktion, zeigen wir, wie zugrundeliegende niedrigdimensionale Eigenschaften in den Daten extrahiert werden können, die einer vielfältigen Menge bedeutungsvoller „Zwischenstrukturen“ entsprechen, in einem Zero-Shot-Verfahren durch kausale Inferenz auf Psi. Schritt 3, Integration, vervollständigt den Zyklus, indem diese Strukturen in neue Tokentypen umgewandelt werden, die dann kontinuierlich als Konditionierungssignale und Vorhersageziele in die Trainingsdaten eingemischt werden. Jeder solche Zyklus erweitert die Fähigkeiten von Psi, ermöglicht es ihm, die zugrundeliegenden Daten besser zu modellieren, und schafft neue Steuerungsmöglichkeiten – ähnlich einer universellen Prompting-Sprache wie bei einem LLM. Wir trainieren eine Instanz von Psi auf 1,4 Billionen Tokens von Internet-Videodaten; wir verwenden sie, um eine Vielzahl nützlicher Video-Vorhersagen und Verständnisinferenzen durchzuführen; wir extrahieren state-of-the-art optischen Fluss, selbstüberwachte Tiefe und Objektsegmentierung; und wir verwenden diese Strukturen, um einen vollständigen Zyklus von Vorhersageverbesserungen zu unterstützen.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025