ChatPaper.aiChatPaper

Scenethesis: Ein agentenbasiertes Framework für Sprache und Vision zur Generierung von 3D-Szenen

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5, 2025
Autoren: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI

Zusammenfassung

Die Synthese interaktiver 3D-Szenen aus Text ist entscheidend für Gaming, Virtual Reality und verkörperte KI. Allerdings stehen bestehende Methoden vor mehreren Herausforderungen. Lernbasierte Ansätze stützen sich auf kleinräumige Indoor-Datensätze, was die Szenenvielfalt und Layoutkomplexität einschränkt. Während große Sprachmodelle (LLMs) vielfältiges Wissen aus dem Textbereich nutzen können, haben sie Schwierigkeiten mit räumlicher Realität und erzeugen oft unnatürliche Objektplatzierungen, die dem gesunden Menschenverstand widersprechen. Unsere zentrale Erkenntnis ist, dass visuelle Wahrnehmung diese Lücke schließen kann, indem sie realistische räumliche Anleitung bietet, die LLMs fehlt. Zu diesem Zweck führen wir Scenethesis ein, ein trainingsfreies agentenbasiertes Framework, das LLM-basierte Szenenplanung mit visuell gesteuerter Layoutverfeinerung kombiniert. Bei einem Textprompt verwendet Scenethesis zunächst ein LLM, um ein grobes Layout zu entwerfen. Ein Vision-Modul verfeinert dies dann, indem es eine Bildanleitung generiert und die Szenenstruktur extrahiert, um die Beziehungen zwischen Objekten zu erfassen. Anschließend erzwingt ein Optimierungsmodul iterativ eine genaue Pose-Ausrichtung und physikalische Plausibilität, um Artefakte wie Objektdurchdringung und Instabilität zu verhindern. Schließlich überprüft ein Bewertungsmodul die räumliche Kohärenz. Umfassende Experimente zeigen, dass Scenethesis vielfältige, realistische und physikalisch plausible 3D-interaktive Szenen erzeugt, was es wertvoll für die Erstellung virtueller Inhalte, Simulationsumgebungen und die Forschung zu verkörperter KI macht.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.

Summary

AI-Generated Summary

PDF61May 8, 2025