Scenethesis: Un Marco de Agentes de Lenguaje y Visión para la Generación de Escenas 3D
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
May 5, 2025
Autores: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI
Resumen
La síntesis de escenas interactivas en 3D a partir de texto es fundamental para los videojuegos, la realidad virtual y la IA encarnada. Sin embargo, los métodos existentes enfrentan varios desafíos. Los enfoques basados en aprendizaje dependen de conjuntos de datos pequeños y limitados a interiores, lo que restringe la diversidad de escenas y la complejidad de su disposición. Aunque los modelos de lenguaje grandes (LLMs) pueden aprovechar conocimientos diversos del dominio textual, tienen dificultades con el realismo espacial, produciendo a menudo colocaciones de objetos poco naturales que no respetan el sentido común. Nuestra idea clave es que la percepción visual puede cerrar esta brecha al proporcionar una guía espacial realista que los LLMs carecen. Con este fin, presentamos Scenethesis, un marco agéntico sin entrenamiento que integra la planificación de escenas basada en LLMs con un refinamiento de disposición guiado por visión. Dado un texto de entrada, Scenethesis primero utiliza un LLM para esbozar un diseño preliminar. Luego, un módulo de visión lo refina generando una guía visual y extrayendo la estructura de la escena para capturar las relaciones entre objetos. A continuación, un módulo de optimización refuerza iterativamente la alineación precisa de poses y la plausibilidad física, evitando artefactos como la penetración de objetos y la inestabilidad. Finalmente, un módulo de verificación asegura la coherencia espacial. Experimentos exhaustivos demuestran que Scenethesis genera escenas interactivas en 3D diversas, realistas y físicamente plausibles, lo que lo convierte en una herramienta valiosa para la creación de contenido virtual, entornos de simulación e investigación en IA encarnada.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual
reality, and embodied AI. However, existing methods face several challenges.
Learning-based approaches depend on small-scale indoor datasets, limiting the
scene diversity and layout complexity. While large language models (LLMs) can
leverage diverse text-domain knowledge, they struggle with spatial realism,
often producing unnatural object placements that fail to respect common sense.
Our key insight is that vision perception can bridge this gap by providing
realistic spatial guidance that LLMs lack. To this end, we introduce
Scenethesis, a training-free agentic framework that integrates LLM-based scene
planning with vision-guided layout refinement. Given a text prompt, Scenethesis
first employs an LLM to draft a coarse layout. A vision module then refines it
by generating an image guidance and extracting scene structure to capture
inter-object relations. Next, an optimization module iteratively enforces
accurate pose alignment and physical plausibility, preventing artifacts like
object penetration and instability. Finally, a judge module verifies spatial
coherence. Comprehensive experiments show that Scenethesis generates diverse,
realistic, and physically plausible 3D interactive scenes, making it valuable
for virtual content creation, simulation environments, and embodied AI
research.Summary
AI-Generated Summary