Lyra 2.0: Verkennende Generatieve 3D-werelden

Samenvatting

Recente vooruitgang in videogeneratie maakt een nieuw paradigma mogelijk voor het creëren van 3D-scènes: het genereren van cameragestuurde video's die scenewalkthroughs simuleren, en deze vervolgens via feed-forward reconstructietechnieken naar 3D te tillen. Deze generatieve reconstructieaanpak combineert de visuele kwaliteit en het creatieve vermogen van videomodellen met 3D-output die klaar is voor real-time rendering en simulatie. Om op te schalen naar grote, complexe omgevingen is 3D-consistente videogeneratie vereist over lange cameratrajecten met grote viewpointveranderingen en locatieherbezoeken, een setting waarin huidige videomodellen snel degraderen. Bestaande methoden voor lange-termijngeneratie worden fundamenteel beperkt door twee vormen van degradatie: ruimtelijk vergeten en temporele drift. Naarmate de verkenning vordert, vallen eerder waargenomen gebieden buiten de temporele context van het model, waardoor het model gedwongen wordt structuren te hallucineren bij herbezoek. Ondertussen hoopt autoregressieve generatie kleine synthesefouten in de loop van de tijd op, waardoor de scène-uitstraling en -geometrie geleidelijk vervormen. Wij presenteren Lyra 2.0, een raamwerk voor het genereren van persistente, verkennbare 3D-werelden op schaal. Om ruimtelijk vergeten aan te pakken, handhaven we per-frame 3D-geometrie en gebruiken we deze uitsluitend voor informatierouting – het ophalen van relevante vorige frames en het tot stand brengen van dichte correspondenties met de doel-viewpoints – terwijl we vertrouwen op het generatieve prior voor appearance-synthese. Om temporele drift aan te pakken, trainen we met zelf-geaugmenteerde geschiedenissen die het model blootstellen aan zijn eigen gedegradeerde output, waardoor het leert drift te corrigeren in plaats van te propageren. Samen maken deze aanzienlijk langere en 3D-consistente videotrajecten mogelijk, die we benutten om feed-forward reconstructiemodellen te finetunen die betrouwbaar hoogwaardige 3D-scènes reconstrueren.

English

Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.

Lyra 2.0: Verkennende Generatieve 3D-werelden

Lyra 2.0: Explorable Generative 3D Worlds

Samenvatting

Support