Aktuellen Weltmodellen fehlt ein persistenter Zustandskern.

Zusammenfassung

Weltmodelle werden zunehmend als entscheidender Schritt hin zur allgemeinen künstlichen Intelligenz angesehen. Doch die Modellierung der physikalischen Welt erfordert mehr als nur das Erzeugen überzeugender Einzelbilder auf Abruf: Sie benötigt einen internen Weltzustand, der sich – unabhängig von der Beobachtung – kontinuierlich weiterentwickelt. Objekte müssen bestehen bleiben, Ereignisse müssen zu ihrem Abschluss kommen – unabhängig davon, ob eine Kamera zusieht, so wie der Mond seine Bahn auch dann beibehält, wenn niemand hinschaut. Diese Anforderung ist ein blinder Fleck bestehender Benchmarks, die Oberflächeneigenschaften wie Bildtreue, Bewegung und Kamerasteuerbarkeit belohnen, aber niemals hinterfragen, ob eine generierte Welt sich unabhängig weiterentwickelt, sobald sie nicht mehr beobachtet wird. Wir führen WRBench ein, den ersten systematischen diagnostischen Benchmark, der Kamerabewegung als Intervention auf die Beobachtbarkeit betrachtet und die Auswertung in eine human-kalibrierte Kette überführt, die prüft, ob die Kamera die angeforderte Interaktion ausführt, ob die Szene während der Sichtbarkeit kontinuierlich und identifizierbar bleibt und ob ein zurückkehrendes Ziel konsistent mit dem in Gang gesetzten Ereignis ist. Über 9.600 Videos von 23 Modellen aus vier Steuerungsparadigmen hinweg zeigt sich ein hartnäckiger Befund: Die derzeitigen Systeme unterhalten die beobachtete Welt wie eine Kamerafahrt – sie setzen ein zurückkehrendes Objekt in dem Zustand fort, in dem es verlassen wurde, anstatt das Ereignis während der Abwesenheit voranzutreiben. Da dieser Fehler über Steuerungsparadigmen, Modellfamilien und Skalierungsstufen hinweg immer wieder auftritt, folgt eine robuste Weiterentwicklung des Weltzustands weder aus saubereren Bildern, engerer Kontrolle, reichhaltigeren geometrischen Vorgaben noch schlicht aus einer höheren Parameterzahl. Wir argumentieren daher, dass die Stabilität des physikalischen Zustandskerns und die Konsistenz von Weltlinien unter Sichtpunkt-Intervention zu erstklassigen Zielen des Weltmodell-Designs werden sollten – damit ein Weltmodell erfasst, wie die Welt sich entfalten wird, und nicht nur, wie das nächste Bild aussieht.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.