WorldPlay: Op weg naar langdurige geometrische consistentie voor real-time interactieve wereldmodellering

Samenvatting

Dit artikel presenteert WorldPlay, een streaming video-diffusiemodel dat realtime, interactieve wereldmodellering mogelijk maakt met langetermijn geometrische consistentie, waardoor de afweging tussen snelheid en geheugen die huidige methodes beperkt wordt opgelost. WorldPlay put zijn kracht uit drie belangrijke innovaties. 1) We gebruiken een Dual Action Representation om robuuste actiecontrole mogelijk te maken als reactie op de toetsenbord- en muisinvoer van de gebruiker. 2) Om langetermijnconsistentie af te dwingen, bouwt ons Reconstituted Context Memory context dynamisch opnieuw op uit vorige frames en gebruikt het temporeel reframing om geometrisch belangrijke maar lang vervlogen frames toegankelijk te houden, waardoor geheugenverval effectief wordt verminderd. 3) We stellen ook Context Forcing voor, een nieuwe distillatiemethode ontworpen voor geheugenbewuste modellen. Het afstemmen van de geheugencontext tussen de leraar- en leerlingmodellen behoudt het vermogen van de leerling om informatie over lange afstand te gebruiken, waardoor realtime snelheden mogelijk zijn terwijl foutdrift wordt voorkomen. Samen genomen genereert WorldPlay langdurige streaming 720p video met 24 FPS met superieure consistentie, vergelijkbaar met bestaande technieken en met sterke generalisatie over diverse scènes. De projectpagina en onlinedemo zijn te vinden op: https://3d-models.hunyuan.tencent.com/world/ en https://3d.hunyuan.tencent.com/sceneTo3D.

English

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

WorldPlay: Op weg naar langdurige geometrische consistentie voor real-time interactieve wereldmodellering

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Samenvatting

Support