LatticeWorld : Un cadre interactif pour la génération de mondes complexes, alimenté par un modèle de langage multimodal de grande envergure
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
September 5, 2025
papers.authors: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI
papers.abstract
Les recherches récentes se concentrent de plus en plus sur le développement de modèles de monde en 3D capables de simuler des scénarios complexes du monde réel. Ces modèles de monde trouvent des applications variées dans plusieurs domaines, notamment l’IA incarnée, la conduite autonome, le divertissement, etc. Une simulation plus réaliste, intégrant une physique précise, permettra de réduire efficacement l’écart entre la simulation et la réalité et de recueillir des informations riches sur le monde réel de manière pratique. Alors que la modélisation manuelle traditionnelle a permis la création de scènes virtuelles en 3D, les approches modernes exploitent des algorithmes avancés d’apprentissage automatique pour la génération de mondes en 3D, les progrès les plus récents se concentrant sur des méthodes génératives capables de créer des mondes virtuels à partir d’instructions utilisateur. Ce travail explore cette direction de recherche en proposant LatticeWorld, un cadre de génération de mondes en 3D simple mais efficace, qui rationalise le pipeline de production industrielle des environnements 3D. LatticeWorld s’appuie sur des modèles de langage légers (LLaMA-2-7B) ainsi que sur un moteur de rendu de qualité industrielle (par exemple, Unreal Engine 5) pour générer un environnement dynamique. Notre cadre proposé accepte des descriptions textuelles et des instructions visuelles comme entrées multimodales et crée des mondes interactifs en 3D à grande échelle, intégrant des agents dynamiques, des interactions compétitives entre agents, une simulation physique haute fidélité et un rendu en temps réel. Nous menons des expériences approfondies pour évaluer LatticeWorld, démontrant qu’il atteint une précision supérieure dans la génération de la disposition des scènes et la fidélité visuelle. De plus, LatticeWorld permet une augmentation de plus de 90 fois de l’efficacité de la production industrielle tout en maintenant une qualité créative élevée par rapport aux méthodes de production manuelle traditionnelles. Notre vidéo de démonstration est disponible à l’adresse suivante : https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models
that simulate complex real-world scenarios. World models have found broad
applications across various domains, including embodied AI, autonomous driving,
entertainment, etc. A more realistic simulation with accurate physics will
effectively narrow the sim-to-real gap and allow us to gather rich information
about the real world conveniently. While traditional manual modeling has
enabled the creation of virtual 3D scenes, modern approaches have leveraged
advanced machine learning algorithms for 3D world generation, with most recent
advances focusing on generative methods that can create virtual worlds based on
user instructions. This work explores such a research direction by proposing
LatticeWorld, a simple yet effective 3D world generation framework that
streamlines the industrial production pipeline of 3D environments. LatticeWorld
leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering
engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed
framework accepts textual descriptions and visual instructions as multimodal
inputs and creates large-scale 3D interactive worlds with dynamic agents,
featuring competitive multi-agent interaction, high-fidelity physics
simulation, and real-time rendering. We conduct comprehensive experiments to
evaluate LatticeWorld, showing that it achieves superior accuracy in scene
layout generation and visual fidelity. Moreover, LatticeWorld achieves over a
90times increase in industrial production efficiency while maintaining high
creative quality compared with traditional manual production methods. Our demo
video is available at https://youtu.be/8VWZXpERR18