Code2Worlds: Stärkung von Coding-LLMs für die 4D-Weltengenerierung

papers.abstract

Um räumliche Intelligenz zu erreichen, muss über visuelle Plausibilität hinausgegangen werden, um Weltsimulatoren zu entwickeln, die auf physikalischen Gesetzen basieren. Während kodierende LLMs die Erzeugung statischer 3D-Szenen vorangetrieben haben, bleibt die Erweiterung dieses Paradigmas auf 4D-Dynamiken eine entscheidende Herausforderung. Diese Aufgabe stellt zwei grundlegende Probleme dar: die Verschränkung von Kontexten auf mehreren Skalen, bei der monolithische Generierung lokale Objektstrukturen und globale Umgebungslayouts nicht in Einklang bringen kann; und eine semantisch-physikalische Ausführungslücke, bei der open-loop Code-Generierung zu physikalischen Halluzinationen ohne dynamische Treue führt. Wir stellen Code2Worlds vor, ein Framework, das 4D-Generierung als Sprach-zu-Simulationscode-Generierung formuliert. Erstens schlagen wir eine Dual-Stream-Architektur vor, die retrieval-gestützte Objektgenerierung von hierarchischer Umgebungsorchestrierung entkoppelt. Zweitens etablieren wir, um dynamische Treue zu gewährleisten, einen physikbewussten Closed-Loop-Mechanismus, bei dem ein PostProcess-Agent Dynamiken skriptet, gekoppelt mit einem VLM-Motion-Critic, der Selbstreflektion durchführt, um Simulationscode iterativ zu verfeinern. Evaluationen auf dem Code4D-Benchmark zeigen, dass Code2Worlds Baseline-Methoden mit einem SGS-Zuwachs von 41 % und 49 % höherer Reichhaltigkeit übertrifft, während es einzigartig physikbewusste Dynamiken erzeugt, die in früheren statischen Methoden fehlen. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

English

Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

Code2Worlds: Stärkung von Coding-LLMs für die 4D-Weltengenerierung

Code2Worlds: Empowering Coding LLMs for 4D World Generation

papers.abstract

Support