WorldAct : Activation de mondes 3D monolithiques en scènes centrées sur les objets prêtes pour l'interaction

Résumé

Les récents systèmes de modélisation de mondes 3D basés sur la synthèse générative de scènes, tels que Marble, permettent de créer des environnements 3D cohérents et explorables, mais leurs sorties sont généralement des actifs monolithiques statiques avec une éditabilité et une interaction physique limitées. Cela restreint leur utilisation dans la création de contenu immersif et la simulation incarnée, où les mondes générés doivent être activement modifiés et manipulés. Pour relever ce défi, nous présentons WorldAct, un cadre qui convertit les mondes 3D statiques générés en scènes éditables et prêtes à l'interaction. WorldAct utilise un agent multimodal pour guider la décomposition de la scène, identifier les objets actionnables, reconstruire des maillages au niveau des objets géométriquement alignés pour l'interaction, et restaurer l'arrière-plan résiduel via un inpaintage 3D. Les scènes résultantes prennent en charge l'édition au niveau des objets, la manipulation avec détection de collisions et l'exécution de tâches incarnées, tout en préservant la cohérence globale de la scène. Les expériences montrent que WorldAct permet des scénarios d'interaction plus riches que ceux des scènes générées originales, suggérant une voie pratique vers des modèles de mondes 3D éditables et interactifs.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.