Lyra 2.0 : Mondes génératifs 3D explorables
Lyra 2.0: Explorable Generative 3D Worlds
April 14, 2026
Auteurs: Tianchang Shen, Sherwin Bahmani, Kai He, Sangeetha Grama Srinivasan, Tianshi Cao, Jiawei Ren, Ruilong Li, Zian Wang, Nicholas Sharp, Zan Gojcic, Sanja Fidler, Jiahui Huang, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Résumé
Les récentes avancées en génération vidéo permettent un nouveau paradigme pour la création de scènes 3D : générer des vidéos contrôlées par caméra simulant des parcours dans une scène, puis les convertir en 3D via des techniques de reconstruction par propagation avant. Cette approche de reconstruction générative combine la fidélité visuelle et la capacité créative des modèles vidéo avec des sorties 3D prêtes pour le rendu en temps réel et la simulation. La mise à l'échelle vers des environnements vastes et complexes nécessite une génération vidéo 3D-cohérente sur de longues trajectoires caméra avec de grands changements de point de vue et des retours sur des lieux déjà visités, un contexte où les modèles vidéo actuels se dégradent rapidement. Les méthodes existantes pour la génération à long terme sont fondamentalement limitées par deux formes de dégradation : l'oubli spatial et la dérive temporelle. Au fur et à mesure de l'exploration, les régions précédemment observées sortent du contexte temporel du modèle, le forçant à halluciner des structures lors des revisites. Parallèlement, la génération autorégressive accumule de petites erreurs de synthèse au fil du temps, déformant progressivement l'apparence et la géométrie de la scène. Nous présentons Lyra 2.0, un cadre pour générer des mondes 3D persistants et explorables à grande échelle. Pour résoudre l'oubli spatial, nous maintenons une géométrie 3D par image et l'utilisons uniquement pour le routage d'information – en récupérant les images passées pertinentes et en établissant des correspondances denses avec les points de vue cibles – tout en s'appuyant sur l'a priori génératif pour la synthèse d'apparence. Pour résoudre la dérive temporelle, nous entraînons le modèle avec des historiques auto-augmentés qui l'exposent à ses propres sorties dégradées, lui apprenant à corriger la dérive plutôt qu'à la propager. Ensemble, ces mécanismes permettent des trajectoires vidéo substantiellement plus longues et 3D-cohérentes, que nous exploitons pour affiner des modèles de reconstruction par propagation avant qui restaurent de manière fiable des scènes 3D de haute qualité.
English
Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.