Les modèles du monde actuels manquent d'un noyau d'état persistant.

Résumé

Les modèles du monde sont de plus en plus considérés comme une étape décisive vers l'intelligence générale artificielle, pourtant la modélisation du monde physique exige bien plus que la génération d'images convaincantes à la demande : elle nécessite un état interne du monde qui continue d'évoluer dans le temps, indépendamment de l'observation, afin que les objets persistent et que les événements se déroulent jusqu'à leur terme, qu'une caméra les regarde ou non – un peu comme la Lune maintient son orbite même lorsque personne ne l'observe. Cette exigence constitue un angle mort des référentiels existants, qui récompensent des propriétés de surface telles que la fidélité, le mouvement et la contrôlabilité de la caméra, sans jamais se demander si un monde généré continue d'évoluer une fois qu'il n'est plus observé. Nous introduisons WRBench, le premier référentiel de diagnostic systématique qui traite le mouvement de la caméra comme une intervention sur l'observabilité et résout l'évaluation en une chaîne calibrée sur l'humain, qui demande si la caméra exécute l'interaction demandée, si la scène reste continue et identifiable lorsqu'elle est en vue, et si une cible qui réapparaît reste cohérente avec l'événement qui a été mis en mouvement. À travers 9 600 vidéos provenant de 23 modèles couvrant quatre paradigmes de contrôle, un résultat s'avère tenace : les systèmes actuels maintiennent le monde observé comme un plan-séquence, reprenant une cible qui réapparaît dans l'état où elle a été abandonnée plutôt que de faire progresser l'événement pendant qu'il était invisible. Parce que cet échec se reproduit à travers les paradigmes de contrôle, les familles de modèles et les augmentations d'échelle, une évolution robuste de l'état du monde ne découle ni d'images plus nettes, ni d'un contrôle plus précis, ni de priors géométriques plus riches, ni du simple nombre de paramètres. Nous soutenons donc que la stabilité du noyau d'état physique et la cohérence des lignes d'univers sous intervention du point de vue devraient devenir des objectifs de première classe dans la conception des modèles du monde, afin qu'un modèle du monde capture la manière dont le monde va se dérouler plutôt que l'apparence de la prochaine image.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.