Code2Worlds: Potenziare i modelli linguistici di codifica per la generazione di mondi 4D

Abstract

Il raggiungimento di un'intelligenza spaziale richiede di andare oltre la plausibilità visiva per costruire simulatori del mondo basati su leggi fisiche. Sebbene i grandi modelli linguistici di codifica abbiano fatto progredire la generazione statica di scene 3D, estendere questo paradigma alla dinamica 4D rimane una frontiera critica. Questo compito presenta due sfide fondamentali: l'intreccio contestuale multi-scala, in cui una generazione monolitica non riesce a bilanciare le strutture degli oggetti locali con i layout ambientali globali; e un divario esecutivo semantico-fisico, in cui la generazione di codice ad anello aperto porta a allucinazioni fisiche prive di fedeltà dinamica. Introduciamo Code2Worlds, un framework che formula la generazione 4D come generazione di codice linguaggio-simulazione. In primo luogo, proponiamo un'architettura a doppio flusso che separa la generazione di oggetti potenziata dal retrieval dall'orchestrazione ambientale gerarchica. In secondo luogo, per garantire la fedeltà dinamica, stabiliamo un meccanismo ad anello chiuso consapevole della fisica in cui un Agente di Post-Elaborazione scrive le dinamiche, accoppiato con un Critico VLM-Movimento che esegue auto-riflessione per affinare iterativamente il codice di simulazione. Le valutazioni sul benchmark Code4D mostrano che Code2Worlds supera i baseline con un guadagno SGS del 41% e una Ricchezza superiore del 49%, generando in modo unico dinamiche fisicamente consapevoli assenti nei precedenti metodi statici. Codice: https://github.com/AIGeeksGroup/Code2Worlds. Sito web: https://aigeeksgroup.github.io/Code2Worlds.

English

Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

Code2Worlds: Potenziare i modelli linguistici di codifica per la generazione di mondi 4D

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Abstract

Support