WorldAct: Преобразование монолитных 3D-миров в объектно-ориентированные сцены, готовые к взаимодействию

Аннотация

Современные системы моделирования 3D-миров, основанные на генеративном синтезе сцен, такие как Marble, способны создавать связные и исследуемые трёхмерные среды, однако их результаты обычно представляют собой статичные монолитные активы с ограниченными возможностями редактирования и физического взаимодействия. Это ограничивает их применение в создании иммерсивного контента и воплощённом моделировании, где сгенерированные миры должны активно модифицироваться и подвергаться манипуляциям. Для решения этой задачи мы представляем WorldAct — фреймворк, преобразующий статические сгенерированные 3D-миры в редактируемые и готовые к взаимодействию сцены. WorldAct использует мультимодального агента для управления декомпозицией сцены, идентификации подлежащих действию объектов, реконструкции геометрически согласованных объектно-уровневых сеток для взаимодействия и восстановления остаточного фона с помощью 3D-инпейнтинга. Полученные сцены поддерживают редактирование на уровне объектов, манипуляции с учётом коллизий и выполнение воплощённых задач, сохраняя при этом глобальную когерентность сцены. Эксперименты показывают, что WorldAct обеспечивает более богатые сценарии взаимодействия по сравнению с исходными сгенерированными сценами, что указывает на практический путь к созданию редактируемых и интерактивных моделей 3D-миров.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.