仮面から世界へ:世界モデルへのヒッチハイクガイド
From Masks to Worlds: A Hitchhiker's Guide to World Models
October 23, 2025
著者: Jinbin Bai, Yu Lei, Hecong Wu, Yuchen Zhu, Shufan Li, Yi Xin, Xiangtai Li, Molei Tao, Aditya Grover, Ming-Hsuan Yang
cs.AI
要旨
これは従来の世界モデルサーベイとは異なり、世界構築を目指す者のためのガイドである。我々の目的は「世界モデル」に言及したあらゆる論文を網羅することではなく、一つの明確な道筋を辿ることにある。すなわち、マルチモーダルにおける表現学習を統一した初期のマスクモデルから、単一パラダイムを共有する統一アーキテクチャへ、そして知覚-行動ループを閉じる対話的生成モデルを経て、最終的には時間を通して一貫した世界を維持するメモリ拡張システムに至る道である。我々は関連性の薄い分岐を迂回し、核心—生成の中核、対話的ループ、メモリシステム—に焦点を当てる。これこそが真の世界モデルへ向けた最も有望な道筋であることを示す。
English
This is not a typical survey of world models; it is a guide for those who
want to build worlds. We do not aim to catalog every paper that has ever
mentioned a ``world model". Instead, we follow one clear road: from early
masked models that unified representation learning across modalities, to
unified architectures that share a single paradigm, then to interactive
generative models that close the action-perception loop, and finally to
memory-augmented systems that sustain consistent worlds over time. We bypass
loosely related branches to focus on the core: the generative heart, the
interactive loop, and the memory system. We show that this is the most
promising path towards true world models.