Scenethesis: Агентная структура для генерации 3D-сцен на основе языка и зрения
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
May 5, 2025
Авторы: Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
cs.AI
Аннотация
Синтез интерактивных 3D-сцен из текста имеет ключевое значение для игр, виртуальной реальности и воплощённого ИИ. Однако существующие методы сталкиваются с рядом проблем. Обучение на основе данных ограничивается небольшими наборами данных для помещений, что снижает разнообразие сцен и сложность их компоновки. Хотя крупные языковые модели (LLM) могут использовать обширные знания из текстовой области, они испытывают трудности с пространственной реалистичностью, часто создавая неестественные размещения объектов, которые не соответствуют здравому смыслу. Наше ключевое наблюдение заключается в том, что визуальное восприятие может устранить этот разрыв, предоставляя реалистичные пространственные ориентиры, которых не хватает LLM. С этой целью мы представляем Scenethesis — автономный фреймворк, не требующий обучения, который объединяет планирование сцен на основе LLM с уточнением компоновки с помощью визуального модуля. Получив текстовый запрос, Scenethesis сначала использует LLM для создания черновой компоновки. Затем визуальный модуль уточняет её, генерируя изображение-ориентир и извлекая структуру сцены для улавливания взаимосвязей между объектами. Далее оптимизационный модуль итеративно обеспечивает точное выравнивание поз и физическую правдоподобность, предотвращая артефакты, такие как пересечение объектов и неустойчивость. Наконец, модуль проверки подтверждает пространственную согласованность. Комплексные эксперименты показывают, что Scenethesis создаёт разнообразные, реалистичные и физически правдоподобные интерактивные 3D-сцены, что делает его ценным инструментом для создания виртуального контента, симуляционных сред и исследований в области воплощённого ИИ.
English
Synthesizing interactive 3D scenes from text is essential for gaming, virtual
reality, and embodied AI. However, existing methods face several challenges.
Learning-based approaches depend on small-scale indoor datasets, limiting the
scene diversity and layout complexity. While large language models (LLMs) can
leverage diverse text-domain knowledge, they struggle with spatial realism,
often producing unnatural object placements that fail to respect common sense.
Our key insight is that vision perception can bridge this gap by providing
realistic spatial guidance that LLMs lack. To this end, we introduce
Scenethesis, a training-free agentic framework that integrates LLM-based scene
planning with vision-guided layout refinement. Given a text prompt, Scenethesis
first employs an LLM to draft a coarse layout. A vision module then refines it
by generating an image guidance and extracting scene structure to capture
inter-object relations. Next, an optimization module iteratively enforces
accurate pose alignment and physical plausibility, preventing artifacts like
object penetration and instability. Finally, a judge module verifies spatial
coherence. Comprehensive experiments show that Scenethesis generates diverse,
realistic, and physically plausible 3D interactive scenes, making it valuable
for virtual content creation, simulation environments, and embodied AI
research.Summary
AI-Generated Summary