Lyra 2.0: Исследуемые генеративные 3D-миры
Lyra 2.0: Explorable Generative 3D Worlds
April 14, 2026
Авторы: Tianchang Shen, Sherwin Bahmani, Kai He, Sangeetha Grama Srinivasan, Tianshi Cao, Jiawei Ren, Ruilong Li, Zian Wang, Nicholas Sharp, Zan Gojcic, Sanja Fidler, Jiahui Huang, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
Аннотация
Последние достижения в области генерации видео открывают новый подход к созданию 3D-сцен: генерацию видео с управляемой камерой, имитирующих обход сцены, с последующим их преобразованием в 3D с помощью прямых методов реконструкции. Этот генеративно-реконструктивный подход сочетает визуальную достоверность и творческий потенциал видео-моделей с 3D-результатами, готовыми для рендеринга в реальном времени и симуляции. Масштабирование на большие сложные среды требует генерации 3D-согласованного видео на длинных траекториях камеры с существенными изменениями точки обзора и повторными посещениями локаций — в таких условиях современные видео-модели быстро деградируют. Существующие методы долгосрочной генерации принципиально ограничены двумя формами деградации: пространственным забыванием и временным дрейфом. По мере исследования сцены ранее наблюдаемые области выходят за пределы временного контекста модели, вынуждая её домысливать структуры при повторном посещении. В то же время, авторегрессионная генерация накапливает мелкие ошибки синтеза со временем, постепенно искажая внешний вид и геометрию сцены. Мы представляем Lyra 2.0 — фреймворк для масштабируемой генерации устойчивых, исследуемых 3D-миров. Для решения проблемы пространственного забывания мы поддерживаем 3D-геометрию для каждого кадра и используем её исключительно для маршрутизации информации — извлечения релевантных прошлых кадров и установления плотных соответствий с целевыми точками обзора — при этом полагаясь на генеративное предзнание для синтеза внешнего вида. Для борьбы с временным дрейфом мы применяем обучение с само-аугментированными историями, которые знакомят модель с её же деградировавшими результатами, обучая её исправлять дрейф, а не распространять его. В совокупности это позволяет создавать значительно более длинные и 3D-согласованные видео-траектории, которые мы используем для дообучения прямых моделей реконструкции, надёжно восстанавливающих высококачественные 3D-сцены.
English
Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.