Scenethesis : Un cadre agentique de langage et de vision pour la génération de scènes 3D
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
May 5, 2025
Auteurs: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI
Résumé
La synthèse de scènes interactives en 3D à partir de texte est essentielle pour les jeux, la réalité virtuelle et l'intelligence artificielle incarnée. Cependant, les méthodes existantes rencontrent plusieurs défis. Les approches basées sur l'apprentissage dépendent de jeux de données intérieurs à petite échelle, limitant ainsi la diversité des scènes et la complexité des agencements. Bien que les grands modèles de langage (LLMs) puissent exploiter des connaissances variées dans le domaine textuel, ils peinent à atteindre un réalisme spatial, produisant souvent des placements d'objets peu naturels qui ne respectent pas le bon sens. Notre idée clé est que la perception visuelle peut combler cette lacune en fournissant un guidage spatial réaliste que les LLMs ne possèdent pas. À cette fin, nous introduisons Scenethesis, un cadre agentique sans apprentissage qui intègre la planification de scènes basée sur les LLMs avec un affinement d'agencement guidé par la vision. Étant donné une invite textuelle, Scenethesis utilise d'abord un LLM pour esquisser un agencement grossier. Un module visuel l'affine ensuite en générant un guidage d'image et en extrayant la structure de la scène pour capturer les relations inter-objets. Ensuite, un module d'optimisation applique itérativement un alignement précis des poses et une plausibilité physique, évitant des artefacts tels que la pénétration d'objets et l'instabilité. Enfin, un module de jugement vérifie la cohérence spatiale. Des expériences approfondies montrent que Scenethesis génère des scènes interactives en 3D diversifiées, réalistes et physiquement plausibles, ce qui le rend précieux pour la création de contenu virtuel, les environnements de simulation et la recherche en intelligence artificielle incarnée.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual
reality, and embodied AI. However, existing methods face several challenges.
Learning-based approaches depend on small-scale indoor datasets, limiting the
scene diversity and layout complexity. While large language models (LLMs) can
leverage diverse text-domain knowledge, they struggle with spatial realism,
often producing unnatural object placements that fail to respect common sense.
Our key insight is that vision perception can bridge this gap by providing
realistic spatial guidance that LLMs lack. To this end, we introduce
Scenethesis, a training-free agentic framework that integrates LLM-based scene
planning with vision-guided layout refinement. Given a text prompt, Scenethesis
first employs an LLM to draft a coarse layout. A vision module then refines it
by generating an image guidance and extracting scene structure to capture
inter-object relations. Next, an optimization module iteratively enforces
accurate pose alignment and physical plausibility, preventing artifacts like
object penetration and instability. Finally, a judge module verifies spatial
coherence. Comprehensive experiments show that Scenethesis generates diverse,
realistic, and physically plausible 3D interactive scenes, making it valuable
for virtual content creation, simulation environments, and embodied AI
research.Summary
AI-Generated Summary