Scenethesis: Um Framework Agente de Linguagem e Visão para Geração de Cenas 3D

Resumo

A síntese de cenas 3D interativas a partir de texto é essencial para jogos, realidade virtual e IA incorporada. No entanto, os métodos existentes enfrentam vários desafios. Abordagens baseadas em aprendizado dependem de conjuntos de dados internos em pequena escala, limitando a diversidade de cenas e a complexidade do layout. Embora os grandes modelos de linguagem (LLMs) possam aproveitar conhecimentos diversos do domínio textual, eles lutam com o realismo espacial, frequentemente produzindo posicionamentos de objetos não naturais que não respeitam o senso comum. Nossa principal percepção é que a percepção visual pode preencher essa lacuna, fornecendo orientação espacial realista que os LLMs não possuem. Para isso, introduzimos o Scenethesis, uma estrutura agentiva sem necessidade de treinamento que integra o planejamento de cenas baseado em LLM com o refinamento de layout guiado por visão. Dado um prompt de texto, o Scenethesis primeiro emprega um LLM para esboçar um layout grosseiro. Um módulo de visão então o refina, gerando uma orientação de imagem e extraindo a estrutura da cena para capturar as relações entre objetos. Em seguida, um módulo de otimização aplica iterativamente o alinhamento preciso de poses e a plausibilidade física, prevenindo artefatos como penetração de objetos e instabilidade. Por fim, um módulo de julgamento verifica a coerência espacial. Experimentos abrangentes mostram que o Scenethesis gera cenas 3D interativas diversas, realistas e fisicamente plausíveis, tornando-o valioso para a criação de conteúdo virtual, ambientes de simulação e pesquisa em IA incorporada.

English

Synthesizing interactive 3D scenes from text is essential for gaming, virtual reality, and embodied AI. However, existing methods face several challenges. Learning-based approaches depend on small-scale indoor datasets, limiting the scene diversity and layout complexity. While large language models (LLMs) can leverage diverse text-domain knowledge, they struggle with spatial realism, often producing unnatural object placements that fail to respect common sense. Our key insight is that vision perception can bridge this gap by providing realistic spatial guidance that LLMs lack. To this end, we introduce Scenethesis, a training-free agentic framework that integrates LLM-based scene planning with vision-guided layout refinement. Given a text prompt, Scenethesis first employs an LLM to draft a coarse layout. A vision module then refines it by generating an image guidance and extracting scene structure to capture inter-object relations. Next, an optimization module iteratively enforces accurate pose alignment and physical plausibility, preventing artifacts like object penetration and instability. Finally, a judge module verifies spatial coherence. Comprehensive experiments show that Scenethesis generates diverse, realistic, and physically plausible 3D interactive scenes, making it valuable for virtual content creation, simulation environments, and embodied AI research.

Scenethesis: Um Framework Agente de Linguagem e Visão para Geração de Cenas 3D

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

Resumo

Support