Code2Worlds : Donner aux LLM de codage le pouvoir de générer des mondes en 4D

papers.abstract

Atteindre une intelligence spatiale nécessite de dépasser la plausibilité visuelle pour construire des simulateurs mondiaux fondés sur les lois physiques. Si les LLM de codage ont fait progresser la génération de scènes 3D statiques, l'extension de ce paradigme à la dynamique 4D reste une frontière critique. Cette tâche présente deux défis fondamentaux : l'intrication contextuelle multi-échelle, où la génération monolithique échoue à équilibrer les structures d'objets locales avec les dispositions environnementales globales ; et un fossé sémantique-physique d'exécution, où la génération de code en boucle ouverte conduit à des hallucinations physiques manquant de fidélité dynamique. Nous présentons Code2Worlds, un framework qui formule la génération 4D comme une génération de code de simulation à partir du langage. Premièrement, nous proposons une architecture à double flux qui dissocie la génération d'objets augmentée par retrieval de l'orchestration environnementale hiérarchique. Deuxièmement, pour garantir la fidélité dynamique, nous établissons un mécanisme en boucle fermée conscient de la physique dans lequel un Agent PostProcess scripte la dynamique, couplé à un Critique VLM-Mouvement qui effectue une auto-réflexion pour affiner itérativement le code de simulation. Les évaluations sur le benchmark Code4D montrent que Code2Worlds surpasse les bases de référence avec un gain SGS de 41 % et une Richesse supérieure de 49 %, tout en générant uniquement une dynamique consciente de la physique absente des méthodes statiques antérieures. Code : https://github.com/AIGeeksGroup/Code2Worlds. Site web : https://aigeeksgroup.github.io/Code2Worlds.

English

Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

Code2Worlds : Donner aux LLM de codage le pouvoir de générer des mondes en 4D

Code2Worlds: Empowering Coding LLMs for 4D World Generation

papers.abstract

Support