Modelagem de Mundo com Integração de Estrutura Probabilística
World Modeling with Probabilistic Structure Integration
September 10, 2025
Autores: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI
Resumo
Apresentamos o Probabilistic Structure Integration (PSI), um sistema para aprender modelos de mundo ricamente controláveis e flexivelmente acionáveis a partir de dados. O PSI consiste em um ciclo de três etapas. A primeira etapa, Predição Probabilística, envolve a construção de um modelo gráfico probabilístico Psi dos dados, na forma de um modelo de sequência autorregressivo de acesso aleatório. O Psi suporta um conjunto completo de distribuições condicionais aprendidas que descrevem a dependência de quaisquer variáveis nos dados em relação a qualquer outro conjunto de variáveis. Na etapa 2, Extração de Estrutura, mostramos como extrair propriedades subjacentes de baixa dimensionalidade nos dados, correspondendo a um conjunto diversificado de "estruturas intermediárias" significativas, de forma zero-shot por meio de inferência causal no Psi. A etapa 3, Integração, completa o ciclo convertendo essas estruturas em novos tipos de tokens que são então continuamente reintegrados na dieta de treinamento como sinais de condicionamento e alvos de predição. Cada ciclo desse tipo amplia as capacidades do Psi, permitindo que ele modele melhor os dados subjacentes e criando novos pontos de controle — semelhantes a uma linguagem universal de acionamento, como em um LLM. Treinamos uma instância do Psi em 1,4 trilhão de tokens de dados de vídeo da internet; usamos isso para realizar uma variedade de inferências úteis de previsão e compreensão de vídeo; extraímos fluxo óptico de última geração, profundidade auto-supervisionada e segmentação de objetos; e usamos essas estruturas para apoiar um ciclo completo de melhorias preditivas.
English
We present Probabilistic Structure Integration (PSI), a system for learning
richly controllable and flexibly promptable world models from data. PSI
consists of a three-step cycle. The first step, Probabilistic prediction,
involves building a probabilistic graphical model Psi of the data, in the form
of a random-access autoregressive sequence model. Psi supports a complete set
of learned conditional distributions describing the dependence of any variables
in the data on any other set of variables. In step 2, Structure extraction, we
show how to extract underlying low-dimensional properties in the data,
corresponding to a diverse set of meaningful "intermediate structures", in a
zero-shot fashion via causal inference on Psi. Step 3, Integration, completes
the cycle by converting these structures into new token types that are then
continually mixed back into the training diet as conditioning signals and
prediction targets. Each such cycle augments the capabilities of Psi, both
allowing it to model the underlying data better, and creating new control
handles -- akin to an LLM-like universal prompting language. We train an
instance of Psi on 1.4 trillion tokens of internet video data; we use it to
perform a variety of useful video prediction and understanding inferences; we
extract state-of-the-art optical flow, self-supervised depth and object
segmentation; and we use these structures to support a full cycle of predictive
improvements.