WorldAct: Activación de Mundos 3D Monolíticos en Escenas Centradas en Objetos Listas para Interacción

Resumen

Los recientes sistemas de modelado de mundos 3D basados en síntesis generativa de escenas, como Marble, pueden crear entornos 3D coherentes y explorables, pero sus resultados suelen ser activos monolíticos estáticos con editabilidad e interacción física limitadas. Esto restringe su uso en la creación de contenido inmersivo y la simulación corpórea, donde los mundos generados deben ser modificados y manipulados activamente. Para abordar este desafío, presentamos WorldAct, un marco que convierte mundos 3D generados estáticamente en escenas editables y listas para la interacción. WorldAct utiliza un agente multimodal para guiar la descomposición de la escena, identificar objetos accionables, reconstruir mallas a nivel de objetos geométricamente alineadas para la interacción y restaurar el fondo residual mediante inpainting 3D. Las escenas resultantes admiten edición a nivel de objetos, manipulación consciente de colisiones y ejecución de tareas corpóreas, preservando al mismo tiempo la coherencia global de la escena. Los experimentos muestran que WorldAct permite escenarios de interacción más ricos que las escenas generadas originalmente, lo que sugiere un camino práctico hacia modelos de mundos 3D editables e interactivos.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.