LatticeWorld: Um Framework Empoderado por Modelos de Linguagem Multimodais de Grande Escala para Geração Interativa de Mundos Complexos

Resumo

Pesquisas recentes têm se concentrado cada vez mais no desenvolvimento de modelos de mundo 3D que simulam cenários complexos do mundo real. Os modelos de mundo encontraram amplas aplicações em diversos domínios, incluindo IA incorporada, direção autônoma, entretenimento, entre outros. Uma simulação mais realista com física precisa reduzirá efetivamente a lacuna entre simulação e realidade e nos permitirá coletar informações ricas sobre o mundo real de forma conveniente. Embora a modelagem manual tradicional tenha possibilitado a criação de cenas virtuais 3D, abordagens modernas têm aproveitado algoritmos avançados de aprendizado de máquina para a geração de mundos 3D, com os avanços mais recentes focando em métodos generativos que podem criar mundos virtuais com base em instruções do usuário. Este trabalho explora essa direção de pesquisa propondo o LatticeWorld, um framework simples, porém eficaz, para geração de mundos 3D que simplifica o pipeline de produção industrial de ambientes 3D. O LatticeWorld utiliza LLMs leves (LLaMA-2-7B) juntamente com um motor de renderização de nível industrial (por exemplo, Unreal Engine 5) para gerar um ambiente dinâmico. Nosso framework proposto aceita descrições textuais e instruções visuais como entradas multimodais e cria mundos 3D interativos em grande escala com agentes dinâmicos, apresentando interação competitiva entre múltiplos agentes, simulação de física de alta fidelidade e renderização em tempo real. Realizamos experimentos abrangentes para avaliar o LatticeWorld, mostrando que ele alcança precisão superior na geração de layouts de cena e fidelidade visual. Além disso, o LatticeWorld alcança um aumento de mais de 90 vezes na eficiência da produção industrial, mantendo alta qualidade criativa em comparação com métodos tradicionais de produção manual. Nosso vídeo de demonstração está disponível em https://youtu.be/8VWZXpERR18.

English

Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a 90times increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18

LatticeWorld: Um Framework Empoderado por Modelos de Linguagem Multimodais de Grande Escala para Geração Interativa de Mundos Complexos

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

Resumo

Support