ChatPaper.aiChatPaper

Code2Worlds: Capacitando LLMs de Programação para Geração de Mundos 4D

Code2Worlds: Empowering Coding LLMs for 4D World Generation

February 12, 2026
Autores: Yi Zhang, Yunshuang Wang, Zeyu Zhang, Hao Tang
cs.AI

Resumo

A obtenção de inteligência espacial exige ir além da plausibilidade visual para construir simuladores de mundo fundamentados nas leis físicas. Embora os LLMs de codificação tenham avançado na geração estática de cenas 3D, estender este paradigma para a dinâmica 4D permanece uma fronteira crítica. Esta tarefa apresenta dois desafios fundamentais: o emaranhamento contextual multi-escala, onde a geração monolítica falha em equilibrar estruturas locais de objetos com layouts ambientais globais; e uma lacuna de execução semântico-física, onde a geração de código em malha aberta leva a alucinações físicas carentes de fidelidade dinâmica. Apresentamos o Code2Worlds, uma estrutura que formula a geração 4D como uma geração de código de linguagem para simulação. Primeiro, propomos uma arquitetura de fluxo duplo que desembaraça a geração de objetos aumentada por recuperação da orquestração ambiental hierárquica. Segundo, para garantir fidelidade dinâmica, estabelecemos um mecanismo de malha fechada com consciência física no qual um Agente de Pós-Processamento cria scripts de dinâmica, acoplado a um Crítico de Movimento VLM que realiza autorreflexão para refinar iterativamente o código de simulação. Avaliações no benchmark Code4D mostram que o Code2Worlds supera as linhas de base com um ganho de 41% no SGS e 49% maior Riqueza, enquanto gera de forma única dinâmicas com consciência física ausentes em métodos estáticos anteriores. Código: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.
English
Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.
PDF42March 28, 2026