Современные мировые модели не имеют устойчивого ядра состояния

Аннотация

Модели мира всё чаще рассматриваются как решающий шаг на пути к общему искусственному интеллекту, однако моделирование физического мира требует не просто генерации убедительных кадров по запросу: для этого необходимо внутреннее состояние мира, которое непрерывно развивается во времени, независимо от наблюдения, чтобы объекты сохраняли устойчивость, а события завершались независимо от того, смотрит ли камера, — подобно тому, как Луна продолжает своё движение по орбите, когда на неё никто не смотрит. Это требование остаётся слепой зоной существующих бенчмарков, которые оценивают поверхностные свойства, такие как точность, движение и управляемость камеры, но никогда не проверяют, продолжает ли сгенерированный мир развиваться, когда он перестаёт наблюдаться. Мы представляем WRBench — первый систематический диагностический бенчмарк, который трактует движение камеры как вмешательство в наблюдаемость и разбивает оценку на калиброванную человеком цепочку вопросов: выполняет ли камера запрошенное взаимодействие, остаётся ли сцена непрерывной и идентифицируемой, пока находится в поле зрения, и соответствует ли возвращающийся целевой объект событию, которое было запущено. На 9600 видеороликах от 23 моделей, охватывающих четыре парадигмы управления, один вывод оказывается незыблемым: современные системы поддерживают наблюдаемый мир как трекинг-шот, возобновляя возвращающийся целевой объект в том состоянии, в котором он был оставлен, а не продвигая событие, пока оно оставалось невидимым. Поскольку эта неудача повторяется во всех парадигмах управления, семействах моделей и масштабах, надёжная эволюция состояния мира не следует из более чистого изображения, более точного управления, более богатых геометрических априорных представлений или одного лишь количества параметров. Поэтому мы утверждаем, что стабильность ядра физического состояния и согласованность мировых линий при вмешательстве точки обзора должны стать целями первого порядка при разработке модели мира, чтобы модель мира отражала то, как мир будет разворачиваться, а не то, как выглядит следующий кадр.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.