Von Masken zu Welten: Ein Anhalterhandbuch für Weltmodelle
From Masks to Worlds: A Hitchhiker's Guide to World Models
October 23, 2025
papers.authors: Jinbin Bai, Yu Lei, Hecong Wu, Yuchen Zhu, Shufan Li, Yi Xin, Xiangtai Li, Molei Tao, Aditya Grover, Ming-Hsuan Yang
cs.AI
papers.abstract
Dies ist keine typische Übersicht über Weltmodelle, sondern ein Leitfaden für diejenigen, die Welten erschaffen wollen. Unser Ziel ist es nicht, jede Arbeit zu katalogisieren, die jemals ein „Weltmodell“ erwähnt hat. Stattdessen folgen wir einem klaren Pfad: von frühen maskierten Modellen, die repräsentationsbasiertes Lernen über Modalitäten hinweg vereinheitlichten, über vereinheitlichte Architekturen, die ein gemeinsames Paradigma teilen, hin zu interaktiven generativen Modellen, die die Handlungs-Wahrnehmungs-Schleife schließen, und schließlich zu speichererweiterten Systemen, die konsistente Welten über die Zeit aufrechterhalten. Wir umgehen lose verwandte Zweige, um uns auf das Wesentliche zu konzentrieren: den generativen Kern, die interaktive Schleife und das Gedächtnissystem. Wir zeigen, dass dies der vielversprechendste Weg zu echten Weltmodellen ist.
English
This is not a typical survey of world models; it is a guide for those who
want to build worlds. We do not aim to catalog every paper that has ever
mentioned a ``world model". Instead, we follow one clear road: from early
masked models that unified representation learning across modalities, to
unified architectures that share a single paradigm, then to interactive
generative models that close the action-perception loop, and finally to
memory-augmented systems that sustain consistent worlds over time. We bypass
loosely related branches to focus on the core: the generative heart, the
interactive loop, and the memory system. We show that this is the most
promising path towards true world models.