WorldAct: Het omvormen van monolithische 3D-werelden tot interactie-gereede, objectgerichte scènes

Samenvatting

Recente 3D-wereldmodelleringssystemen gebaseerd op generatieve scènesynthese, zoals Marble, kunnen coherente en verkennbare 3D-omgevingen creëren, maar hun uitvoer bestaat doorgaans uit statische monolithische assets met beperkte bewerkbaarheid en fysieke interactie. Dit beperkt het gebruik ervan in immersieve contentcreatie en belichaamde simulatie, waar gegenereerde werelden actief moeten worden aangepast en gemanipuleerd. Om deze uitdaging aan te pakken, presenteren we WorldAct, een raamwerk dat statische gegenereerde 3D-werelden omzet in bewerkbare en interactieklare scènes. WorldAct gebruikt een multimodale agent om scènedecompositie te begeleiden, hanteerbare objecten te identificeren, geometrisch uitgelijnde meshes op objectniveau te reconstructen voor interactie, en de resterende achtergrond te herstellen via 3D-inpainting. De resulterende scènes ondersteunen bewerking op objectniveau, botsingsbewuste manipulatie en belichaamde taakuitvoering, terwijl de globale scènecoherentie behouden blijft. Experimenten tonen aan dat WorldAct rijkere interactiescenario's mogelijk maakt dan de oorspronkelijk gegenereerde scènes, wat wijst op een praktische weg naar bewerkbare en interactieve 3D-wereldmodellen.

English

Recent 3D world modeling systems based on generative scene synthesis, such as Marble, can create coherent and explorable 3D environments, yet their outputs are typically static monolithic assets with limited editability and physical interaction. This restricts their use in immersive content creation and embodied simulation, where generated worlds must be actively modified and manipulated. To tackle this challenge, we present WorldAct, a framework that converts static generated 3D worlds into editable and interaction-ready scenes. WorldAct uses a multimodal agent to guide scene decomposition, identify actionable objects, reconstruct geometrically aligned object-level meshes for interaction, and restore the residual background via 3D inpainting. The resulting scenes support object-level editing, collision-aware manipulation, and embodied task execution while preserving global scene coherence. Experiments show that WorldAct enables richer interaction scenarios than the original generated scenes, suggesting a practical path toward editable and interactive 3D world models.