ChatPaper.aiChatPaper

SceneSmith: Агентное создание симуляционно-готовых интерьеров

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

February 9, 2026
Авторы: Nicholas Pfaff, Thomas Cohn, Sergey Zakharov, Rick Cory, Russ Tedrake
cs.AI

Аннотация

Симуляция стала ключевым инструментом для масштабного обучения и оценки домашних роботов, однако существующие среды не способны передать разнообразие и физическую сложность реальных помещений. Современные методы синтеза сцен создают редко обставленные комнаты, лишенные характерного для реальности плотного нагромождения предметов, шарнирной мебели и физических свойств, необходимых для манипуляций роботов. Мы представляем SceneSmith — иерархическую агентскую систему, которая генерирует готовые к симуляции внутренние пространства по текстовым описаниям. SceneSmith создает сцены поэтапно — от архитектурной планировки до расстановки мебели и размещения мелких объектов — где каждый этап реализован как взаимодействие агентов на основе больших языковых моделей: дизайнера, критика и оркестратора. Фреймворк интегрирует генерацию ассетов через синтез 3D-объектов из текста для статических предметов, поиск в наборах данных для шарнирных объектов и оценку физических свойств. SceneSmith генерирует в 3–6 раз больше объектов, чем предыдущие методы, с уровнем пересечений между объектами менее 2% и 96% объектов остаются стабильными при физическом моделировании. В исследовании с участием 205 человек система продемонстрировала превосходство над базовыми методами с показателями 92% за реалистичность и 91% за соответствие описанию в среднем. Мы также показываем, что эти среды могут использоваться в сквозном конвейере для автоматической оценки стратегий управления роботами.
English
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stagesx2013from architectural layout to furniture placement to small object populationx2013each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.
PDF01February 12, 2026