LatticeWorld: Un Framework Potenziato da Modelli Linguistici Multimodali di Grande Scala per la Generazione Interattiva di Mondi Complessi
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
September 5, 2025
Autori: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI
Abstract
La ricerca recente si sta concentrando sempre più sullo sviluppo di modelli di mondi 3D che simulano scenari complessi del mondo reale. I modelli di mondo hanno trovato ampie applicazioni in vari domini, tra cui l'AI incarnata, la guida autonoma, l'intrattenimento, ecc. Una simulazione più realistica con una fisica accurata ridurrà efficacemente il divario tra simulazione e realtà e ci permetterà di raccogliere informazioni dettagliate sul mondo reale in modo conveniente. Mentre la modellazione manuale tradizionale ha permesso la creazione di scene virtuali 3D, gli approcci moderni hanno sfruttato algoritmi avanzati di machine learning per la generazione di mondi 3D, con i progressi più recenti che si concentrano su metodi generativi in grado di creare mondi virtuali basati su istruzioni dell'utente. Questo lavoro esplora una tale direzione di ricerca proponendo LatticeWorld, un framework semplice ma efficace per la generazione di mondi 3D che semplifica la pipeline di produzione industriale degli ambienti 3D. LatticeWorld sfrutta modelli linguistici leggeri (LLaMA-2-7B) insieme a motori di rendering di livello industriale (ad esempio, Unreal Engine 5) per generare un ambiente dinamico. Il nostro framework proposto accetta descrizioni testuali e istruzioni visive come input multimodali e crea mondi interattivi 3D su larga scala con agenti dinamici, caratterizzati da un'interazione competitiva tra più agenti, una simulazione fisica ad alta fedeltà e un rendering in tempo reale. Abbiamo condotto esperimenti completi per valutare LatticeWorld, dimostrando che raggiunge una precisione superiore nella generazione del layout delle scene e nella fedeltà visiva. Inoltre, LatticeWorld ottiene un aumento di oltre 90 volte nell'efficienza della produzione industriale mantenendo un'elevata qualità creativa rispetto ai metodi di produzione manuale tradizionali. Il nostro video dimostrativo è disponibile all'indirizzo https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models
that simulate complex real-world scenarios. World models have found broad
applications across various domains, including embodied AI, autonomous driving,
entertainment, etc. A more realistic simulation with accurate physics will
effectively narrow the sim-to-real gap and allow us to gather rich information
about the real world conveniently. While traditional manual modeling has
enabled the creation of virtual 3D scenes, modern approaches have leveraged
advanced machine learning algorithms for 3D world generation, with most recent
advances focusing on generative methods that can create virtual worlds based on
user instructions. This work explores such a research direction by proposing
LatticeWorld, a simple yet effective 3D world generation framework that
streamlines the industrial production pipeline of 3D environments. LatticeWorld
leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering
engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed
framework accepts textual descriptions and visual instructions as multimodal
inputs and creates large-scale 3D interactive worlds with dynamic agents,
featuring competitive multi-agent interaction, high-fidelity physics
simulation, and real-time rendering. We conduct comprehensive experiments to
evaluate LatticeWorld, showing that it achieves superior accuracy in scene
layout generation and visual fidelity. Moreover, LatticeWorld achieves over a
90times increase in industrial production efficiency while maintaining high
creative quality compared with traditional manual production methods. Our demo
video is available at https://youtu.be/8VWZXpERR18