Huidige wereldmodellen missen een persistente kerntoestand.

Samenvatting

Wereldmodellen worden steeds vaker beschouwd als een beslissende stap in de richting van algemene kunstmatige intelligentie, maar het modelleren van de fysieke wereld vereist meer dan het op verzoek weergeven van overtuigende beelden: het vereist een interne wereldtoestand die in de loop van de tijd blijft evolueren, losgekoppeld van waarneming, zodat objecten blijven bestaan en gebeurtenissen hun conclusie bereiken, ongeacht of er een camera toekijkt, net zoals de maan haar baan houdt wanneer niemand kijkt. Deze vereiste is een blinde vlek van bestaande benchmarks, die oppervlakte-eigenschappen zoals getrouwheid, beweging en camerabestuurbaarheid belonen, maar nooit vragen of een gegenereerde wereld blijft evolueren zodra deze niet wordt waargenomen. Wij introduceren WRBench, de eerste systematische diagnostische benchmark die camerabeweging behandelt als een interventie op waarneembaarheid en de evaluatie oplost in een menselijk gekalibreerde keten die vraagt of de camera de gevraagde interactie uitvoert, of de scène continu en identificeerbaar blijft zolang deze in beeld is, en of een terugkerend doel consistent blijft met de gebeurtenis die in gang is gezet. In 9.600 video's van 23 modellen die vier controleparadigma's bestrijken, blijkt één bevinding hardnekkig: huidige systemen behouden de waargenomen wereld als een volgopname, waarbij een terugkerend doel wordt hervat in de toestand waarin het werd achtergelaten, in plaats van de gebeurtenis voort te zetten terwijl deze onzichtbaar was. Omdat dit falen terugkeert over controleparadigma's, modelfamilies en schaalvergrotingen, volgt robuuste evolutie van de wereldtoestand niet uit schonere beelden, strakkere controle, rijkere geometrische voorkennis of louter parametertelling. Wij stellen daarom dat de stabiliteit van de fysieke toestandskern en de consistentie van wereldlijnen onder standpuntinterventie eersteklasdoelstellingen moeten worden van wereldmodelontwerp, zodat een wereldmodel vastlegt hoe de wereld zich zal ontvouwen in plaats van hoe het volgende beeld eruitziet.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.