Code2Worlds: Расширение возможностей языковых моделей программирования для генерации 4D-миров

Аннотация

Достижение пространственного интеллекта требует выхода за пределы визуальной правдоподобности для создания симуляторов мира, основанных на физических законах. Хотя кодирующие большие языковые модели (LLM) продвинули генерацию статических 3D-сцен, расширение этой парадигмы до 4D-динамики остается ключевым рубежом. Эта задача представляет две фундаментальные проблемы: переплетение контекста на разных масштабах, при котором монолитная генерация не способна сбалансировать локальную структуру объектов с глобальной компоновкой окружения; и семантико-физический разрыв исполнения, при котором генерация кода в разомкнутом контуре приводит к физическим галлюцинациям, лишенным динамической достоверности. Мы представляем Code2Worlds — фреймворк, который формулирует 4D-генерацию как генерацию кода для симуляции на основе языкового описания. Во-первых, мы предлагаем двухпоточную архитектуру, которая разделяет усиленную поиском генерацию объектов и иерархическую оркестрацию окружения. Во-вторых, для обеспечения динамической достоверности мы создаем механизм замкнутого цикла с учетом физики, в котором PostProcess Agent скриптует динамику, а VLM-Motion Critic выполняет саморефлексию для итеративного уточнения кода симуляции. Оценки на бенчмарке Code4D показывают, что Code2Worlds превосходит базовые методы с приростом SGS на 41% и на 49% более высокой Показателем Богатства (Richness), при этом уникально генерируя физически достоверную динамику, отсутствующую в предыдущих статических методах. Код: https://github.com/AIGeeksGroup/Code2Worlds. Сайт: https://aigeeksgroup.github.io/Code2Worlds.

English

Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.

Code2Worlds: Расширение возможностей языковых моделей программирования для генерации 4D-миров

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Аннотация

Support