확률적 구조 통합을 통한 세계 모델링
World Modeling with Probabilistic Structure Integration
September 10, 2025
저자: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
cs.AI
초록
우리는 데이터로부터 풍부하게 제어 가능하고 유연하게 프롬프트 가능한 세계 모델을 학습하기 위한 시스템인 확률적 구조 통합(Probabilistic Structure Integration, PSI)을 제안합니다. PSI는 세 단계의 사이클로 구성됩니다. 첫 번째 단계인 확률적 예측(Probabilistic prediction)은 랜덤 액세스 자기회귀 시퀀스 모델 형태로 데이터의 확률적 그래프 모델 Psi를 구축하는 과정입니다. Psi는 데이터 내의 어떤 변수 집합이 다른 변수 집합에 어떻게 의존하는지를 설명하는 완전한 조건부 분포 집합을 학습합니다. 두 번째 단계인 구조 추출(Structure extraction)에서는 Psi에 대한 인과적 추론을 통해 데이터의 저차원 속성에 해당하는 다양한 의미 있는 "중간 구조"를 제로샷 방식으로 추출하는 방법을 보여줍니다. 세 번째 단계인 통합(Integration)은 이러한 구조를 새로운 토큰 유형으로 변환한 후, 이를 조건 신호 및 예측 대상으로서 훈련 데이터에 지속적으로 혼합함으로써 사이클을 완성합니다. 각각의 사이클은 Psi의 능력을 강화하여, 기본 데이터를 더 잘 모델링할 수 있게 하고, LLM과 유사한 범용 프롬프팅 언어와 같은 새로운 제어 핸들을 생성합니다. 우리는 인터넷 비디오 데이터 1.4조 토큰에 대해 Psi의 인스턴스를 훈련시켰으며, 이를 사용하여 다양한 유용한 비디오 예측 및 이해 추론을 수행하고, 최첨단 광학 흐름, 자기 지도 깊이 및 객체 분할을 추출하며, 이러한 구조를 활용하여 예측 개선의 완전한 사이클을 지원합니다.
English
We present Probabilistic Structure Integration (PSI), a system for learning
richly controllable and flexibly promptable world models from data. PSI
consists of a three-step cycle. The first step, Probabilistic prediction,
involves building a probabilistic graphical model Psi of the data, in the form
of a random-access autoregressive sequence model. Psi supports a complete set
of learned conditional distributions describing the dependence of any variables
in the data on any other set of variables. In step 2, Structure extraction, we
show how to extract underlying low-dimensional properties in the data,
corresponding to a diverse set of meaningful "intermediate structures", in a
zero-shot fashion via causal inference on Psi. Step 3, Integration, completes
the cycle by converting these structures into new token types that are then
continually mixed back into the training diet as conditioning signals and
prediction targets. Each such cycle augments the capabilities of Psi, both
allowing it to model the underlying data better, and creating new control
handles -- akin to an LLM-like universal prompting language. We train an
instance of Psi on 1.4 trillion tokens of internet video data; we use it to
perform a variety of useful video prediction and understanding inferences; we
extract state-of-the-art optical flow, self-supervised depth and object
segmentation; and we use these structures to support a full cycle of predictive
improvements.