WorldAct: Aktivierung monolithischer 3D-Welten zu interaktionsbereiten objektzentrierten Szenen

Zusammenfassung

Aktuelle 3D-Weltmodellierungssysteme, die auf generativer Szenensynthese basieren, wie etwa Marble, können kohärente und erkundbare 3D-Umgebungen erzeugen, doch ihre Ausgaben sind typischerweise statische monolithische Objekte mit begrenzter Editierbarkeit und physikalischer Interaktion. Dies schränkt ihre Nutzung in der immersiven Inhaltserstellung und der verkörperten Simulation ein, in denen generierte Welten aktiv verändert und manipuliert werden müssen. Um diese Herausforderung zu bewältigen, präsentieren wir WorldAct, ein Framework, das statische generierte 3D-Welten in editierbare und interaktionsbereite Szenen umwandelt. WorldAct nutzt einen multimodalen Agenten, um die Szenenzerlegung zu steuern, handlungsrelevante Objekte zu identifizieren, geometrisch ausgerichtete objektebenen-Meshes für die Interaktion zu rekonstruieren und den verbleibenden Hintergrund mittels 3D-Inpainting wiederherzustellen. Die resultierenden Szenen unterstützen Editierung auf Objektebene, kollisionsbewusste Manipulation und verkörperte Aufgabenausführung, während die globale Szenenkohärenz erhalten bleibt. Experimente zeigen, dass WorldAct reichhaltigere Interaktionsszenarien ermöglicht als die ursprünglichen generierten Szenen, was einen praktischen Weg hin zu editierbaren und interaktiven 3D-Weltmodellen aufzeigt.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.