ChatPaper.aiChatPaper

LatticeWorld: マルチモーダル大規模言語モデルを活用したインタラクティブな複雑世界生成のためのフレームワーク

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

September 5, 2025
著者: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu
cs.AI

要旨

近年の研究では、複雑な現実世界のシナリオをシミュレートする3Dワールドモデルの開発に焦点が当てられています。ワールドモデルは、エンボディドAI、自動運転、エンターテイメントなど、さまざまな分野で広範な応用が見出されています。正確な物理法則に基づくより現実的なシミュレーションは、シミュレーションと現実のギャップを効果的に縮め、現実世界に関する豊富な情報を容易に収集することを可能にします。従来の手動モデリングは仮想3Dシーンの作成を可能にしてきましたが、現代のアプローチでは、3Dワールド生成のための高度な機械学習アルゴリズムが活用されており、最近の進展ではユーザーの指示に基づいて仮想世界を生成する生成手法に焦点が当てられています。本研究では、LatticeWorldというシンプルでありながら効果的な3Dワールド生成フレームワークを提案し、3D環境の産業生産パイプラインを効率化する研究方向を探求します。LatticeWorldは、軽量なLLM(LLaMA-2-7B)と産業グレードのレンダリングエンジン(例:Unreal Engine 5)を活用して動的な環境を生成します。提案するフレームワークは、テキスト記述と視覚的指示をマルチモーダル入力として受け入れ、動的なエージェントを備えた大規模な3Dインタラクティブワールドを作成し、競争力のあるマルチエージェントインタラクション、高忠実度の物理シミュレーション、リアルタイムレンダリングを特徴とします。LatticeWorldを評価するために包括的な実験を実施し、シーンレイアウト生成と視覚的忠実度において優れた精度を達成することを示します。さらに、LatticeWorldは、従来の手動生産方法と比較して、高い創造的品質を維持しながら、産業生産効率を90倍以上向上させます。デモビデオはhttps://youtu.be/8VWZXpERR18でご覧いただけます。
English
Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a 90times increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18
PDF93September 8, 2025