LatticeWorld: Een Multimodaal Framework voor Interactieve Complexe Wereldgeneratie, Aangedreven door Grote Taalmodellen

Samenvatting

Recent onderzoek richt zich steeds meer op de ontwikkeling van 3D-wereldmodellen die complexe real-world scenario's simuleren. Wereldmodellen vinden brede toepassingen in verschillende domeinen, waaronder embodied AI, autonoom rijden, entertainment, enz. Een realistischere simulatie met nauwkeurige fysica zal de kloof tussen simulatie en realiteit effectief verkleinen en het mogelijk maken om op een handige manier rijke informatie over de echte wereld te verzamelen. Terwijl traditionele handmatige modellering de creatie van virtuele 3D-scènes mogelijk heeft gemaakt, hebben moderne benaderingen geavanceerde machine learning-algoritmen ingezet voor 3D-wereldgeneratie, waarbij de meest recente vooruitgang zich richt op generatieve methoden die virtuele werelden kunnen creëren op basis van gebruikersinstructies. Dit werk verkent een dergelijke onderzoeksrichting door LatticeWorld voor te stellen, een eenvoudig maar effectief 3D-wereldgeneratieframework dat de industriële productiepijplijn van 3D-omgevingen stroomlijnt. LatticeWorld maakt gebruik van lichtgewicht LLM's (LLaMA-2-7B) naast een industriële rendering-engine (bijv. Unreal Engine 5) om een dynamische omgeving te genereren. Ons voorgestelde framework accepteert tekstuele beschrijvingen en visuele instructies als multimodale invoer en creëert grootschalige 3D-interactieve werelden met dynamische agents, met competitieve multi-agent interactie, hoogwaardige fysicasimulatie en real-time rendering. We voeren uitgebreide experimenten uit om LatticeWorld te evalueren, waaruit blijkt dat het superieure nauwkeurigheid bereikt in het genereren van scènelay-outs en visuele kwaliteit. Bovendien behaalt LatticeWorld een meer dan 90-voudige toename in industriële productie-efficiëntie terwijl het een hoge creatieve kwaliteit behoudt in vergelijking met traditionele handmatige productiemethoden. Onze demovideo is beschikbaar op https://youtu.be/8VWZXpERR18.

English

Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a 90times increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18

LatticeWorld: Een Multimodaal Framework voor Interactieve Complexe Wereldgeneratie, Aangedreven door Grote Taalmodellen

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

Samenvatting

Support