WorldAct: Ativando Mundos 3D Monolíticos em Cenas Centradas em Objetos Prontas para Interação

Resumo

Recentemente, sistemas de modelagem de mundos 3D baseados em síntese generativa de cenas, como o Marble, conseguem criar ambientes 3D coerentes e exploráveis, porém seus resultados são tipicamente ativos monolíticos estáticos, com editabilidade limitada e interação física restrita. Isso limita seu uso na criação de conteúdo imersivo e simulação incorporada, onde os mundos gerados precisam ser ativamente modificados e manipulados. Para enfrentar esse desafio, apresentamos o WorldAct, uma estrutura que converte mundos 3D gerados estaticamente em cenas editáveis e prontas para interação. O WorldAct utiliza um agente multimodal para orientar a decomposição da cena, identificar objetos acionáveis, reconstruir malhas no nível de objeto geometricamente alinhadas para interação e restaurar o fundo residual por meio de inpaint 3D. As cenas resultantes suportam edição no nível de objeto, manipulação ciente de colisões e execução de tarefas incorporadas, preservando a coerência global da cena. Experimentos mostram que o WorldAct possibilita cenários de interação mais ricos do que as cenas geradas originalmente, sugerindo um caminho prático em direção a modelos de mundos 3D editáveis e interativos.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.