LatticeWorld: Een Multimodaal Framework voor Interactieve Complexe Wereldgeneratie, Aangedreven door Grote Taalmodellen
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
September 5, 2025
Auteurs: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI
Samenvatting
Recent onderzoek richt zich steeds meer op de ontwikkeling van 3D-wereldmodellen die complexe real-world scenario's simuleren. Wereldmodellen vinden brede toepassingen in verschillende domeinen, waaronder embodied AI, autonoom rijden, entertainment, enz. Een realistischere simulatie met nauwkeurige fysica zal de kloof tussen simulatie en realiteit effectief verkleinen en het mogelijk maken om op een handige manier rijke informatie over de echte wereld te verzamelen. Terwijl traditionele handmatige modellering de creatie van virtuele 3D-scènes mogelijk heeft gemaakt, hebben moderne benaderingen geavanceerde machine learning-algoritmen ingezet voor 3D-wereldgeneratie, waarbij de meest recente vooruitgang zich richt op generatieve methoden die virtuele werelden kunnen creëren op basis van gebruikersinstructies. Dit werk verkent een dergelijke onderzoeksrichting door LatticeWorld voor te stellen, een eenvoudig maar effectief 3D-wereldgeneratieframework dat de industriële productiepijplijn van 3D-omgevingen stroomlijnt. LatticeWorld maakt gebruik van lichtgewicht LLM's (LLaMA-2-7B) naast een industriële rendering-engine (bijv. Unreal Engine 5) om een dynamische omgeving te genereren. Ons voorgestelde framework accepteert tekstuele beschrijvingen en visuele instructies als multimodale invoer en creëert grootschalige 3D-interactieve werelden met dynamische agents, met competitieve multi-agent interactie, hoogwaardige fysicasimulatie en real-time rendering. We voeren uitgebreide experimenten uit om LatticeWorld te evalueren, waaruit blijkt dat het superieure nauwkeurigheid bereikt in het genereren van scènelay-outs en visuele kwaliteit. Bovendien behaalt LatticeWorld een meer dan 90-voudige toename in industriële productie-efficiëntie terwijl het een hoge creatieve kwaliteit behoudt in vergelijking met traditionele handmatige productiemethoden. Onze demovideo is beschikbaar op https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models
that simulate complex real-world scenarios. World models have found broad
applications across various domains, including embodied AI, autonomous driving,
entertainment, etc. A more realistic simulation with accurate physics will
effectively narrow the sim-to-real gap and allow us to gather rich information
about the real world conveniently. While traditional manual modeling has
enabled the creation of virtual 3D scenes, modern approaches have leveraged
advanced machine learning algorithms for 3D world generation, with most recent
advances focusing on generative methods that can create virtual worlds based on
user instructions. This work explores such a research direction by proposing
LatticeWorld, a simple yet effective 3D world generation framework that
streamlines the industrial production pipeline of 3D environments. LatticeWorld
leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering
engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed
framework accepts textual descriptions and visual instructions as multimodal
inputs and creates large-scale 3D interactive worlds with dynamic agents,
featuring competitive multi-agent interaction, high-fidelity physics
simulation, and real-time rendering. We conduct comprehensive experiments to
evaluate LatticeWorld, showing that it achieves superior accuracy in scene
layout generation and visual fidelity. Moreover, LatticeWorld achieves over a
90times increase in industrial production efficiency while maintaining high
creative quality compared with traditional manual production methods. Our demo
video is available at https://youtu.be/8VWZXpERR18