ChatPaper.aiChatPaper

LatticeWorld: Мультимодальная платформа для интерактивного создания сложных миров на основе крупных языковых моделей

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

September 5, 2025
Авторы: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI

Аннотация

В последнее время исследования все больше сосредотачиваются на разработке 3D-моделей мира, которые симулируют сложные сценарии реального мира. Модели мира нашли широкое применение в различных областях, включая воплощенный ИИ, автономное вождение, развлечения и другие. Более реалистичная симуляция с точной физикой эффективно сокращает разрыв между симуляцией и реальностью и позволяет удобно собирать богатую информацию о реальном мире. В то время как традиционное ручное моделирование позволило создавать виртуальные 3D-сцены, современные подходы используют передовые алгоритмы машинного обучения для генерации 3D-мира, причем последние достижения сосредоточены на генеративных методах, которые могут создавать виртуальные миры на основе пользовательских инструкций. Данная работа исследует это направление, предлагая LatticeWorld — простую, но эффективную структуру для генерации 3D-мира, которая упрощает производственный процесс создания 3D-сред. LatticeWorld использует легковесные языковые модели (LLaMA-2-7B) вместе с промышленным движком рендеринга (например, Unreal Engine 5) для создания динамической среды. Наша структура принимает текстовые описания и визуальные инструкции в качестве мультимодальных входных данных и создает масштабные интерактивные 3D-миры с динамическими агентами, включая конкурентоспособное взаимодействие между агентами, высокоточную физическую симуляцию и рендеринг в реальном времени. Мы проводим всесторонние эксперименты для оценки LatticeWorld, демонстрируя, что он достигает превосходной точности в генерации компоновки сцены и визуальной достоверности. Более того, LatticeWorld обеспечивает более чем 90-кратное увеличение эффективности промышленного производства при сохранении высокого творческого качества по сравнению с традиционными методами ручного производства. Наше демонстрационное видео доступно по ссылке: https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a 90times increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18
PDF93September 8, 2025