ChatPaper.aiChatPaper

Code2Worlds: Potenciando los Modelos de Lenguaje de Programación para la Generación de Mundos 4D

Code2Worlds: Empowering Coding LLMs for 4D World Generation

February 12, 2026
Autores: Yi Zhang, Yunshuang Wang, Zeyu Zhang, Hao Tang
cs.AI

Resumen

Lograr inteligencia espacial requiere ir más allá de la plausibilidad visual para construir simuladores del mundo basados en leyes físicas. Si bien los LLM de codificación han avanzado en la generación de escenas 3D estáticas, extender este paradigma a la dinámica 4D sigue siendo una frontera crítica. Esta tarea presenta dos desafíos fundamentales: el entrelazamiento de contexto a múltiples escalas, donde la generación monolítica no logra equilibrar las estructuras de objetos locales con los diseños de entornos globales; y una brecha de ejecución semántico-física, donde la generación de código en bucle abierto conduce a alucinaciones físicas que carecen de fidelidad dinámica. Presentamos Code2Worlds, un marco que formula la generación 4D como una generación de código de lenguaje a simulación. Primero, proponemos una arquitectura de doble flujo que desentrelaza la generación de objetos aumentada por recuperación de la orquestación ambiental jerárquica. Segundo, para garantizar la fidelidad dinámica, establecemos un mecanismo de bucle cerrado consciente de la física en el cual un Agente de Postprocesado genera scripts de dinámicas, acoplado con un Crítico de Movimiento VLM que realiza una autorreflexión para refinar iterativamente el código de simulación. Las evaluaciones en el benchmark Code4D muestran que Code2Worlds supera a los baselines con una ganancia SGS del 41% y un 49% más de Riqueza, mientras genera de forma única dinámicas conscientes de la física ausentes en métodos estáticos previos. Código: https://github.com/AIGeeksGroup/Code2Worlds. Sitio web: https://aigeeksgroup.github.io/Code2Worlds.
English
Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.
PDF32February 17, 2026