Lyra 2.0: Mondi Generativi 3D Esplorabili

Abstract

I recenti progressi nella generazione video consentono un nuovo paradigma per la creazione di scene 3D: generare video controllati dalla telecamera che simulano percorsi esplorativi nella scena, per poi convertirli in 3D mediante tecniche di ricostruzione feed-forward. Questo approccio di ricostruzione generativa combina la fedeltà visiva e la capacità creativa dei modelli video con output 3D pronti per il rendering in tempo reale e la simulazione. Il ridimensionamento a ambienti ampi e complessi richiede una generazione video 3D-consistente su lunghe traiettorie di telecamera con ampi cambiamenti di punto di vista e rivisitazioni di luoghi, un contesto in cui gli attuali modelli video si degradano rapidamente. I metodi esistenti per la generazione di orizzonti lunghi sono fondamentalmente limitati da due forme di degrado: dimenticanza spaziale e deriva temporale. Man mano che l'esplorazione procede, le regioni precedentemente osservate escono dal contesto temporale del modello, costringendolo a "allucinare" le strutture quando vengono rivisitate. Nel frattempo, la generazione autoregressiva accumula piccoli errori di sintesi nel tempo, distorcendo gradualmente l'aspetto e la geometria della scena. Presentiamo Lyra 2.0, un framework per generare mondi 3D persistenti ed esplorabili su larga scala. Per affrontare la dimenticanza spaziale, manteniamo la geometria 3D per fotogramma e la utilizziamo esclusivamente per l'instradamento delle informazioni – recuperando i fotogrammi passati rilevanti e stabilendo corrispondenze dense con i punti di vista target – affidandoci al prior generativo per la sintesi dell'aspetto. Per contrastare la deriva temporale, addestriamo il modello con storie auto-aumentate che lo espongono ai propri output degradati, insegnandogli a correggere la deriva anziché propagarla. Insieme, queste soluzioni abilitano traiettorie video sostanzialmente più lunghe e 3D-consistenti, che sfruttiamo per mettere a punto modelli di ricostruzione feed-forward in grado di recuperare in modo affidabile scene 3D di alta qualità.

English

Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.

Lyra 2.0: Mondi Generativi 3D Esplorabili

Lyra 2.0: Explorable Generative 3D Worlds

Abstract

Support