Scenethesis: Um Framework Agente de Linguagem e Visão para Geração de Cenas 3D
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
May 5, 2025
Autores: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI
Resumo
A síntese de cenas 3D interativas a partir de texto é essencial para jogos, realidade virtual e IA incorporada. No entanto, os métodos existentes enfrentam vários desafios. Abordagens baseadas em aprendizado dependem de conjuntos de dados internos em pequena escala, limitando a diversidade de cenas e a complexidade do layout. Embora os grandes modelos de linguagem (LLMs) possam aproveitar conhecimentos diversos do domínio textual, eles lutam com o realismo espacial, frequentemente produzindo posicionamentos de objetos não naturais que não respeitam o senso comum. Nossa principal percepção é que a percepção visual pode preencher essa lacuna, fornecendo orientação espacial realista que os LLMs não possuem. Para isso, introduzimos o Scenethesis, uma estrutura agentiva sem necessidade de treinamento que integra o planejamento de cenas baseado em LLM com o refinamento de layout guiado por visão. Dado um prompt de texto, o Scenethesis primeiro emprega um LLM para esboçar um layout grosseiro. Um módulo de visão então o refina, gerando uma orientação de imagem e extraindo a estrutura da cena para capturar as relações entre objetos. Em seguida, um módulo de otimização aplica iterativamente o alinhamento preciso de poses e a plausibilidade física, prevenindo artefatos como penetração de objetos e instabilidade. Por fim, um módulo de julgamento verifica a coerência espacial. Experimentos abrangentes mostram que o Scenethesis gera cenas 3D interativas diversas, realistas e fisicamente plausíveis, tornando-o valioso para a criação de conteúdo virtual, ambientes de simulação e pesquisa em IA incorporada.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual
reality, and embodied AI. However, existing methods face several challenges.
Learning-based approaches depend on small-scale indoor datasets, limiting the
scene diversity and layout complexity. While large language models (LLMs) can
leverage diverse text-domain knowledge, they struggle with spatial realism,
often producing unnatural object placements that fail to respect common sense.
Our key insight is that vision perception can bridge this gap by providing
realistic spatial guidance that LLMs lack. To this end, we introduce
Scenethesis, a training-free agentic framework that integrates LLM-based scene
planning with vision-guided layout refinement. Given a text prompt, Scenethesis
first employs an LLM to draft a coarse layout. A vision module then refines it
by generating an image guidance and extracting scene structure to capture
inter-object relations. Next, an optimization module iteratively enforces
accurate pose alignment and physical plausibility, preventing artifacts like
object penetration and instability. Finally, a judge module verifies spatial
coherence. Comprehensive experiments show that Scenethesis generates diverse,
realistic, and physically plausible 3D interactive scenes, making it valuable
for virtual content creation, simulation environments, and embodied AI
research.