ChatPaper.aiChatPaper

確率的構造統合による世界モデリング

World Modeling with Probabilistic Structure Integration

September 10, 2025
著者: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI

要旨

本論文では、データから豊富な制御性と柔軟なプロンプト機能を備えた世界モデルを学習するシステムであるProbabilistic Structure Integration(PSI)を提案します。PSIは3段階のサイクルで構成されています。最初の段階である確率的予測では、ランダムアクセス自己回帰型シーケンスモデルとして、データの確率的グラフィカルモデルPsiを構築します。Psiは、データ内の任意の変数が他の変数集合に依存する関係を記述する、完全な条件付き分布のセットを学習します。第2段階の構造抽出では、Psiに対する因果推論を介して、多様な意味のある「中間構造」に対応するデータの低次元特性をゼロショットで抽出する方法を示します。第3段階の統合では、これらの構造を新しいトークンタイプに変換し、それらを条件付け信号および予測ターゲットとしてトレーニングデータに継続的に組み込むことでサイクルを完了します。各サイクルはPsiの能力を拡張し、基礎となるデータをより良くモデル化できるようにするとともに、LLMのような普遍的なプロンプト言語に似た新しい制御手段を創出します。私たちは、1.4兆トークンのインターネット動画データを用いてPsiのインスタンスをトレーニングし、様々な有用な動画予測と理解推論を実行します。また、最先端のオプティカルフロー、自己教師あり深度推定、物体セグメンテーションを抽出し、これらの構造を用いて予測性能の完全な改善サイクルを実現します。
English
We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.
PDF134September 15, 2025