ChatPaper.aiChatPaper

Modelado del Mundo con Integración de Estructura Probabilística

World Modeling with Probabilistic Structure Integration

September 10, 2025
Autores: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

Resumen

Presentamos Integración de Estructuras Probabilísticas (PSI), un sistema para aprender modelos del mundo altamente controlables y flexibles mediante indicaciones (prompts) a partir de datos. PSI consiste en un ciclo de tres pasos. El primer paso, Predicción Probabilística, implica construir un modelo gráfico probabilístico Psi de los datos, en forma de un modelo autoregresivo de acceso aleatorio. Psi soporta un conjunto completo de distribuciones condicionales aprendidas que describen la dependencia de cualquier variable en los datos respecto a cualquier otro conjunto de variables. En el paso 2, Extracción de Estructuras, mostramos cómo extraer propiedades subyacentes de baja dimensión en los datos, correspondientes a un conjunto diverso de "estructuras intermedias" significativas, de manera zero-shot mediante inferencia causal sobre Psi. El paso 3, Integración, completa el ciclo convirtiendo estas estructuras en nuevos tipos de tokens que luego se mezclan continuamente en la dieta de entrenamiento como señales de condicionamiento y objetivos de predicción. Cada ciclo de este tipo aumenta las capacidades de Psi, permitiéndole modelar mejor los datos subyacentes y creando nuevos puntos de control, similares a un lenguaje universal de indicaciones (prompts) como el de los LLM. Entrenamos una instancia de Psi con 1.4 billones de tokens de datos de video de internet; lo utilizamos para realizar diversas inferencias útiles de predicción y comprensión de video; extraemos flujo óptico de última generación, profundidad autosupervisada y segmentación de objetos; y usamos estas estructuras para respaldar un ciclo completo de mejoras predictivas.
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025