LatticeWorld: Un Marco Empoderado por Modelos de Lenguaje de Gran Escala Multimodal para la Generación Interactiva de Mundos Complejos
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
September 5, 2025
Autores: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI
Resumen
Investigaciones recientes se han centrado cada vez más en el desarrollo de modelos de mundos 3D que simulan escenarios complejos del mundo real. Los modelos de mundos han encontrado aplicaciones amplias en diversos dominios, incluyendo la inteligencia artificial encarnada, la conducción autónoma, el entretenimiento, entre otros. Una simulación más realista con física precisa reducirá efectivamente la brecha entre simulación y realidad y nos permitirá recopilar información rica sobre el mundo real de manera conveniente. Si bien el modelado manual tradicional ha permitido la creación de escenas virtuales en 3D, los enfoques modernos han aprovechado algoritmos avanzados de aprendizaje automático para la generación de mundos 3D, con los avances más recientes centrados en métodos generativos que pueden crear mundos virtuales basados en instrucciones del usuario. Este trabajo explora dicha dirección de investigación al proponer LatticeWorld, un marco de generación de mundos 3D simple pero efectivo que optimiza la línea de producción industrial de entornos 3D. LatticeWorld aprovecha modelos de lenguaje livianos (LLaMA-2-7B) junto con un motor de renderizado de grado industrial (por ejemplo, Unreal Engine 5) para generar un entorno dinámico. Nuestro marco propuesto acepta descripciones textuales e instrucciones visuales como entradas multimodales y crea mundos interactivos en 3D a gran escala con agentes dinámicos, destacando interacciones competitivas entre múltiples agentes, simulación de física de alta fidelidad y renderizado en tiempo real. Realizamos experimentos exhaustivos para evaluar LatticeWorld, demostrando que logra una precisión superior en la generación de disposición de escenas y fidelidad visual. Además, LatticeWorld logra un aumento de más de 90 veces en la eficiencia de producción industrial mientras mantiene una alta calidad creativa en comparación con los métodos tradicionales de producción manual. Nuestro video de demostración está disponible en https://youtu.be/8VWZXpERR18.
English
Recent research has been increasingly focusing on developing 3D world models
that simulate complex real-world scenarios. World models have found broad
applications across various domains, including embodied AI, autonomous driving,
entertainment, etc. A more realistic simulation with accurate physics will
effectively narrow the sim-to-real gap and allow us to gather rich information
about the real world conveniently. While traditional manual modeling has
enabled the creation of virtual 3D scenes, modern approaches have leveraged
advanced machine learning algorithms for 3D world generation, with most recent
advances focusing on generative methods that can create virtual worlds based on
user instructions. This work explores such a research direction by proposing
LatticeWorld, a simple yet effective 3D world generation framework that
streamlines the industrial production pipeline of 3D environments. LatticeWorld
leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering
engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed
framework accepts textual descriptions and visual instructions as multimodal
inputs and creates large-scale 3D interactive worlds with dynamic agents,
featuring competitive multi-agent interaction, high-fidelity physics
simulation, and real-time rendering. We conduct comprehensive experiments to
evaluate LatticeWorld, showing that it achieves superior accuracy in scene
layout generation and visual fidelity. Moreover, LatticeWorld achieves over a
90times increase in industrial production efficiency while maintaining high
creative quality compared with traditional manual production methods. Our demo
video is available at https://youtu.be/8VWZXpERR18