ChatPaper.aiChatPaper

Scenethesis: Een Taal- en Visueel Agentisch Framework voor 3D Scène Generatie

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5, 2025
Auteurs: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI

Samenvatting

Het synthetiseren van interactieve 3D-scènes uit tekst is essentieel voor gaming, virtual reality en embodied AI. Bestaande methoden kampen echter met verschillende uitdagingen. Leergebaseerde benaderingen zijn afhankelijk van kleinschalige indoor datasets, wat de diversiteit van scènes en de complexiteit van lay-outs beperkt. Hoewel grote taalmodellen (LLM's) gebruik kunnen maken van diverse kennis uit het tekstdomein, hebben ze moeite met ruimtelijke realisme en produceren ze vaak onnatuurlijke objectplaatsingen die niet voldoen aan gezond verstand. Onze belangrijkste inzicht is dat visuele waarneming deze kloof kan overbruggen door realistische ruimtelijke begeleiding te bieden die LLM's missen. Daarom introduceren we Scenethesis, een trainingsvrij agentisch framework dat LLM-gebaseerde scèneplanning integreert met visueel geleide lay-outverfijning. Gegeven een tekstprompt gebruikt Scenethesis eerst een LLM om een ruwe lay-out op te stellen. Een visuele module verfijnt deze vervolgens door een beeldbegeleiding te genereren en scènestructuur te extraheren om inter-objectrelaties vast te leggen. Vervolgens handhaaft een optimalisatiemodule iteratief nauwkeurige pose-alignering en fysieke plausibiliteit, waardoor artefacten zoals objectpenetratie en instabiliteit worden voorkomen. Ten slotte verifieert een beoordelingsmodule de ruimtelijke samenhang. Uitgebreide experimenten tonen aan dat Scenethesis diverse, realistische en fysisch plausibele 3D-interactieve scènes genereert, wat het waardevol maakt voor virtuele contentcreatie, simulatieomgevingen en embodied AI-onderzoek.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.
PDF71May 8, 2025