ChatPaper.aiChatPaper

Lyra 2.0: Erkundbare generative 3D-Welten

Lyra 2.0: Explorable Generative 3D Worlds

April 14, 2026
Autoren: Tianchang Shen, Sherwin Bahmani, Kai He, Sangeetha Grama Srinivasan, Tianshi Cao, Jiawei Ren, Ruilong Li, Zian Wang, Nicholas Sharp, Zan Gojcic, Sanja Fidler, Jiahui Huang, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Videogenerierung ermöglichen einen neuen Ansatz zur Erstellung von 3D-Szenen: die Generierung von kameragesteuerten Videos, die Kameradurchgänge durch eine Szene simulieren, und deren anschließende Überführung in 3D mittels Forward-Reconstruction-Verfahren. Dieser generative Rekonstruktionsansatz kombiniert die visuelle Detailtreue und kreative Kapazität von Videomodellen mit 3D-Ergebnissen, die für Echtzeit-Rendering und Simulation geeignet sind. Die Skalierung auf große, komplexe Umgebungen erfordert eine 3D-konsistente Videogenerierung über lange Kameratrajektorien mit großen Blickwinkeländerungen und erneuten Ortsbesuchen – ein Szenario, in dem aktuelle Videomodelle schnell an Qualität einbüßen. Bestehende Methoden für die Langzeiterzeugung sind grundlegend durch zwei Formen von Qualitätsverlust begrenzt: räumliches Vergessen und zeitliches Abdriften. Während der Erkundung fallen zuvor beobachtete Bereiche aus dem zeitlichen Kontext des Modells, was dieses bei erneuter Betrachtung zwingt, Strukturen zu halluzinieren. Gleichzeitig akkumulieren sich bei der autoregressiven Generierung mit der Zeit kleine Synthesefehler, die die Szenenerscheinung und -geometrie allmählich verzerren. Wir stellen Lyra 2.0 vor, ein Framework zur Erzeugung persistenter, erkundbarer 3D-Welten im großen Maßstab. Um räumlichem Vergessen entgegenzuwirken, pflegen wir pro Frame eine 3D-Geometrie und nutzen diese ausschließlich zum Informations-Routing – zum Abrufen relevanter vergangener Frames und zur Herstellung dichter Korrespondenzen mit den Zielblickpunkten – während wir uns für die Erscheinungssynthese auf die generative Priorverteilung verlassen. Um zeitlichem Abdriften zu begegnen, trainieren wir das Modell mit selbst-generierten Verläufen, die es seinen eigenen qualitätsgeminderten Ausgaben aussetzen, wodurch es lernt, Drift zu korrigieren statt zu verstärken. Gemeinsam ermöglichen diese Maßnahmen deutlich längere und 3D-konsistente Videotrajektorien, die wir nutzen, um Forward-Rekonstruktionsmodelle zu verfeinern, die zuverlässig hochwertige 3D-Szenen rekonstruieren.
English
Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.
PDF172April 16, 2026