LatticeWorld: Um Framework Empoderado por Modelos de Linguagem Multimodais de Grande Escala para Geração Interativa de Mundos Complexos
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
September 5, 2025
Autores: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI
Resumo
Pesquisas recentes têm se concentrado cada vez mais no desenvolvimento de modelos de mundo 3D que simulam cenários complexos do mundo real. Os modelos de mundo encontraram amplas aplicações em diversos domínios, incluindo IA incorporada, direção autônoma, entretenimento, entre outros. Uma simulação mais realista com física precisa reduzirá efetivamente a lacuna entre simulação e realidade e nos permitirá coletar informações ricas sobre o mundo real de forma conveniente. Embora a modelagem manual tradicional tenha possibilitado a criação de cenas virtuais 3D, abordagens modernas têm aproveitado algoritmos avançados de aprendizado de máquina para a geração de mundos 3D, com os avanços mais recentes focando em métodos generativos que podem criar mundos virtuais com base em instruções do usuário. Este trabalho explora essa direção de pesquisa propondo o LatticeWorld, um framework simples, porém eficaz, para geração de mundos 3D que simplifica o pipeline de produção industrial de ambientes 3D. O LatticeWorld utiliza LLMs leves (LLaMA-2-7B) juntamente com um motor de renderização de nível industrial (por exemplo, Unreal Engine 5) para gerar um ambiente dinâmico. Nosso framework proposto aceita descrições textuais e instruções visuais como entradas multimodais e cria mundos 3D interativos em grande escala com agentes dinâmicos, apresentando interação competitiva entre múltiplos agentes, simulação de física de alta fidelidade e renderização em tempo real. Realizamos experimentos abrangentes para avaliar o LatticeWorld, mostrando que ele alcança precisão superior na geração de layouts de cena e fidelidade visual. Além disso, o LatticeWorld alcança um aumento de mais de 90 vezes na eficiência da produção industrial, mantendo alta qualidade criativa em comparação com métodos tradicionais de produção manual. Nosso vídeo de demonstração está disponível em https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models
that simulate complex real-world scenarios. World models have found broad
applications across various domains, including embodied AI, autonomous driving,
entertainment, etc. A more realistic simulation with accurate physics will
effectively narrow the sim-to-real gap and allow us to gather rich information
about the real world conveniently. While traditional manual modeling has
enabled the creation of virtual 3D scenes, modern approaches have leveraged
advanced machine learning algorithms for 3D world generation, with most recent
advances focusing on generative methods that can create virtual worlds based on
user instructions. This work explores such a research direction by proposing
LatticeWorld, a simple yet effective 3D world generation framework that
streamlines the industrial production pipeline of 3D environments. LatticeWorld
leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering
engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed
framework accepts textual descriptions and visual instructions as multimodal
inputs and creates large-scale 3D interactive worlds with dynamic agents,
featuring competitive multi-agent interaction, high-fidelity physics
simulation, and real-time rendering. We conduct comprehensive experiments to
evaluate LatticeWorld, showing that it achieves superior accuracy in scene
layout generation and visual fidelity. Moreover, LatticeWorld achieves over a
90times increase in industrial production efficiency while maintaining high
creative quality compared with traditional manual production methods. Our demo
video is available at https://youtu.be/8VWZXpERR18