Os modelos de mundo atuais carecem de um núcleo de estado persistente.

Resumo

Os modelos de mundo são cada vez mais considerados um passo decisivo rumo à inteligência geral artificial, porém modelar o mundo físico exige mais do que renderizar quadros convincentes sob demanda: requer um estado interno do mundo que continue evoluindo ao longo do tempo, desacoplado da observação, para que os objetos persistam e os eventos cheguem às suas conclusões, quer uma câmera esteja ou não observando, tal como a lua mantém sua órbita quando ninguém está olhando. Esse requisito é um ponto cego dos benchmarks existentes, que recompensam propriedades superficiais como fidelidade, movimento e controlabilidade da câmera, sem nunca perguntar se um mundo gerado continua evoluindo quando não é observado. Apresentamos o WRBench, o primeiro benchmark diagnóstico sistemático que trata o movimento da câmera como uma intervenção na observabilidade e decompõe a avaliação em uma cadeia calibrada por humanos que pergunta se a câmera executa a interação solicitada, se a cena permanece contínua e identificável enquanto está visível, e se um alvo que retorna permanece consistente com o evento que foi posto em movimento. Em 9.600 vídeos de 23 modelos abrangendo quatro paradigmas de controle, uma constatação se mostra teimosa: os sistemas atuais mantêm o mundo observado como uma tomada de rastreamento, retomando um alvo que retorna no estado em que foi abandonado, em vez de avançar o evento enquanto ele ficou invisível. Como essa falha se repete entre paradigmas de controle, famílias de modelos e incrementos de escala, a evolução robusta do estado do mundo não decorre de imagens mais limpas, controle mais rigoroso, prioris geométricos mais ricos ou mera contagem de parâmetros. Portanto, argumentamos que a estabilidade do núcleo do estado físico e a consistência das linhas de mundo sob intervenção do ponto de vista devem se tornar objetivos de primeira classe do design de modelos de mundo, de modo que um modelo de mundo capture como o mundo se desenrolará, em vez de como o próximo quadro aparece.

English

World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce WRBench, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.