Los modelos del mundo actuales carecen de un núcleo de estado persistente.

Resumen

Los modelos del mundo se consideran cada vez más un paso decisivo hacia la inteligencia general artificial; sin embargo, modelar el mundo físico exige algo más que generar fotogramas convincentes bajo demanda: requiere un estado interno del mundo que siga evolucionando en el tiempo, desacoplado de la observación, de modo que los objetos perduren y los eventos lleguen a su conclusión, esté o no una cámara observando, al igual que la Luna mantiene su órbita cuando nadie la mira. Este requisito constituye un punto ciego de los bancos de pruebas existentes, que recompensan propiedades superficiales como la fidelidad, el movimiento y la controlabilidad de la cámara, sin preguntarse nunca si un mundo generado sigue evolucionando una vez que deja de ser observado. Introducimos WRBench, el primer banco de pruebas diagnósticas sistemático que trata el movimiento de la cámara como una intervención sobre la observabilidad y desglosa la evaluación en una cadena calibrada por humanos que pregunta si la cámara ejecuta la interacción solicitada, si la escena se mantiene continua e identificable mientras está a la vista, y si un objetivo que regresa se mantiene consistente con el evento que se puso en marcha. En 9.600 vídeos de 23 modelos que abarcan cuatro paradigmas de control, un hallazgo se muestra persistente: los sistemas actuales mantienen el mundo observado como un plano de seguimiento, reanudando un objetivo que regresa en el estado en que fue abandonado, en lugar de avanzar el evento mientras pasó desapercibido. Debido a que este fallo se repite en todos los paradigmas de control, familias de modelos e incrementos de escala, la evolución robusta del estado del mundo no se deriva de imágenes más limpias, un control más estricto, priores geométricos más ricos o el mero número de parámetros. Por lo tanto, argumentamos que la estabilidad del núcleo del estado físico y la consistencia de las líneas del mundo bajo intervención del punto de vista deberían convertirse en objetivos de primera clase en el diseño de modelos del mundo, de modo que un modelo del mundo capture cómo se desarrollará el mundo en lugar de cómo aparece el siguiente fotograma.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.