ChatPaper.aiChatPaper

LatticeWorld: Ein multimodales, durch große Sprachmodelle gestütztes Framework zur interaktiven Generierung komplexer Welten

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

September 5, 2025
papers.authors: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI

papers.abstract

Aktuelle Forschungen konzentrieren sich zunehmend auf die Entwicklung von 3D-Weltmodellen, die komplexe reale Szenarien simulieren. Weltmodelle finden breite Anwendungen in verschiedenen Bereichen, einschließlich verkörperter KI, autonomen Fahrens, Unterhaltung usw. Eine realistischere Simulation mit präziser Physik wird die Lücke zwischen Simulation und Realität effektiv verringern und es ermöglichen, umfangreiche Informationen über die reale Welt bequem zu sammeln. Während traditionelle manuelle Modellierung die Erstellung virtueller 3D-Szenen ermöglicht hat, nutzen moderne Ansätze fortschrittliche maschinelle Lernalgorithmen zur 3D-Weltgenerierung, wobei die jüngsten Fortschritte auf generativen Methoden basieren, die virtuelle Welten basierend auf Benutzeranweisungen erstellen können. Diese Arbeit untersucht eine solche Forschungsrichtung, indem sie LatticeWorld vorschlägt, ein einfaches, aber effektives 3D-Weltgenerierungsframework, das den industriellen Produktionsprozess von 3D-Umgebungen optimiert. LatticeWorld nutzt leistungsstarke LLMs (LLaMA-2-7B) in Verbindung mit einer branchenüblichen Rendering-Engine (z. B. Unreal Engine 5), um eine dynamische Umgebung zu generieren. Unser vorgeschlagenes Framework akzeptiert textuelle Beschreibungen und visuelle Anweisungen als multimodale Eingaben und erstellt großflächige 3D-interaktive Welten mit dynamischen Agenten, die sich durch wettbewerbsfähige Multi-Agenten-Interaktion, hochwertige Physiksimulation und Echtzeit-Rendering auszeichnen. Wir führen umfassende Experimente durch, um LatticeWorld zu evaluieren, und zeigen, dass es eine überlegene Genauigkeit bei der Generierung von Szenenlayouts und visueller Treue erreicht. Darüber hinaus erzielt LatticeWorld im Vergleich zu traditionellen manuellen Produktionsmethoden eine mehr als 90-fache Steigerung der industriellen Produktionseffizienz bei gleichbleibend hoher kreativer Qualität. Unser Demo-Video ist unter https://youtu.be/8VWZXpERR18 verfügbar.
English
Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a 90times increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18
PDF93September 8, 2025