Scenethesis: Un Framework Agente per la Generazione di Scene 3D Integrando Linguaggio e Visione
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
May 5, 2025
Autori: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI
Abstract
La sintesi di scene 3D interattive a partire da testo è fondamentale per il gaming, la realtà virtuale e l'AI incarnata. Tuttavia, i metodi esistenti affrontano diverse sfide. Gli approcci basati sull'apprendimento dipendono da dataset di piccola scala relativi ad ambienti interni, limitando la diversità delle scene e la complessità del layout. Sebbene i grandi modelli linguistici (LLM) possano sfruttare una conoscenza diversificata nel dominio del testo, faticano a raggiungere un realismo spaziale, spesso producendo posizionamenti innaturali degli oggetti che non rispettano il buon senso. La nostra intuizione chiave è che la percezione visiva può colmare questa lacuna fornendo una guida spaziale realistica di cui gli LLM sono carenti. A tal fine, introduciamo Scenethesis, un framework agentico senza necessità di addestramento che integra la pianificazione della scene basata su LLM con un affinamento del layout guidato dalla visione. Dato un prompt testuale, Scenethesis utilizza prima un LLM per abbozzare un layout approssimativo. Un modulo di visione lo affina poi generando una guida visiva ed estraendo la struttura della scena per catturare le relazioni tra gli oggetti. Successivamente, un modulo di ottimizzazione applica iterativamente un allineamento preciso delle pose e una plausibilità fisica, prevenendo artefatti come la penetrazione degli oggetti e l'instabilità. Infine, un modulo di giudizio verifica la coerenza spaziale. Esperimenti completi dimostrano che Scenethesis genera scene 3D interattive diversificate, realistiche e fisicamente plausibili, rendendolo prezioso per la creazione di contenuti virtuali, ambienti di simulazione e la ricerca sull'AI incarnata.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual
reality, and embodied AI. However, existing methods face several challenges.
Learning-based approaches depend on small-scale indoor datasets, limiting the
scene diversity and layout complexity. While large language models (LLMs) can
leverage diverse text-domain knowledge, they struggle with spatial realism,
often producing unnatural object placements that fail to respect common sense.
Our key insight is that vision perception can bridge this gap by providing
realistic spatial guidance that LLMs lack. To this end, we introduce
Scenethesis, a training-free agentic framework that integrates LLM-based scene
planning with vision-guided layout refinement. Given a text prompt, Scenethesis
first employs an LLM to draft a coarse layout. A vision module then refines it
by generating an image guidance and extracting scene structure to capture
inter-object relations. Next, an optimization module iteratively enforces
accurate pose alignment and physical plausibility, preventing artifacts like
object penetration and instability. Finally, a judge module verifies spatial
coherence. Comprehensive experiments show that Scenethesis generates diverse,
realistic, and physically plausible 3D interactive scenes, making it valuable
for virtual content creation, simulation environments, and embodied AI
research.