Lyra 2.0: Mundos Generativos 3D Explorables
Lyra 2.0: Explorable Generative 3D Worlds
April 14, 2026
Autores: Tianchang Shen, Sherwin Bahmani, Kai He, Sangeetha Grama Srinivasan, Tianshi Cao, Jiawei Ren, Ruilong Li, Zian Wang, Nicholas Sharp, Zan Gojcic, Sanja Fidler, Jiahui Huang, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Resumen
Los recientes avances en generación de vídeo permiten un nuevo paradigma para la creación de escenas 3D: generar vídeos controlados por cámara que simulen recorridos de la escena y luego convertirlos a 3D mediante técnicas de reconstrucción de propagación directa. Este enfoque de reconstrucción generativa combina la fidelidad visual y la capacidad creativa de los modelos de vídeo con salidas 3D listas para renderizado y simulación en tiempo real. La escalabilidad a entornos grandes y complejos requiere una generación de vídeo 3D-consistente en trayectorias de cámara largas con grandes cambios de punto de vista y revisitación de ubicaciones, un escenario donde los modelos de vídeo actuales se degradan rápidamente. Los métodos existentes para generación de horizonte largo están fundamentalmente limitados por dos formas de degradación: olvido espacial y deriva temporal. A medida que avanza la exploración, las regiones previamente observadas quedan fuera del contexto temporal del modelo, forzándolo a alucinar estructuras cuando se revisitan. Mientras tanto, la generación autoregresiva acumula pequeños errores de síntesis con el tiempo, distorsionando gradualmente la apariencia y geometría de la escena. Presentamos Lyra 2.0, un marco para generar mundos 3D persistentes y explorables a escala. Para abordar el olvido espacial, mantenemos geometría 3D por fotograma y la usamos únicamente para el enrutamiento de información —recuperando fotogramas pasados relevantes y estableciendo correspondencias densas con los puntos de vista objetivo— mientras dependemos del conocimiento previo generativo para la síntesis de apariencia. Para abordar la deriva temporal, entrenamos con historiales auto-aumentados que exponen el modelo a sus propias salidas degradadas, enseñándole a corregir la deriva en lugar de propagarla. En conjunto, estos elementos permiten trayectorias de vídeo sustancialmente más largas y 3D-consistentes, que aprovechamos para ajustar modelos de reconstrucción de propagación directa que recuperan de forma fiable escenas 3D de alta calidad.
English
Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.