ChatPaper.aiChatPaper

Scenethesis: 3Dシーン生成のための言語・視覚エージェントフレームワーク

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5, 2025
著者: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI

要旨

テキストからインタラクティブな3Dシーンを合成することは、ゲーム、仮想現実、およびエンボディドAIにとって重要です。しかし、既存の手法はいくつかの課題に直面しています。学習ベースのアプローチは小規模な屋内データセットに依存しており、シーンの多様性とレイアウトの複雑さが制限されています。一方、大規模言語モデル(LLM)は多様なテキストドメインの知識を活用できますが、空間的なリアリズムに苦戦し、常識を尊重しない不自然なオブジェクト配置を生成することがよくあります。私たちの重要な洞察は、視覚知覚がLLMが欠如する現実的な空間ガイダンスを提供することで、このギャップを埋めることができるということです。この目的のために、LLMベースのシーンプランニングと視覚ガイドによるレイアウト改善を統合した、トレーニング不要のエージェントフレームワークであるScenethesisを導入します。テキストプロンプトが与えられると、ScenethesisはまずLLMを使用して粗いレイアウトを作成します。次に、視覚モジュールが画像ガイダンスを生成し、シーン構造を抽出してオブジェクト間の関係を捕捉することで、これを改善します。その後、最適化モジュールが正確なポーズアラインメントと物理的な妥当性を反復的に強制し、オブジェクトの貫通や不安定性などのアーティファクトを防止します。最後に、判定モジュールが空間的一貫性を検証します。包括的な実験により、Scenethesisが多様で現実的かつ物理的に妥当な3Dインタラクティブシーンを生成することが示され、仮想コンテンツ作成、シミュレーション環境、およびエンボディドAI研究にとって価値があることが確認されました。
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.

Summary

AI-Generated Summary

PDF61May 8, 2025