Lyra 2.0: Mundos Generativos 3D Exploráveis

Resumo

Os recentes avanços na geração de vídeo permitem um novo paradigma para a criação de cenas 3D: gerar vídeos controlados por câmera que simulam percursos por uma cena e, em seguida, elevá-los a 3D por meio de técnicas de reconstrução *feed-forward*. Esta abordagem de reconstrução generativa combina a fidelidade visual e a capacidade criativa dos modelos de vídeo com saídas 3D prontas para renderização e simulação em tempo real. A escalabilidade para ambientes grandes e complexos exige a geração de vídeo 3D-consistente em trajetórias longas de câmera, com grandes mudanças de ponto de vista e revisita de locais, um cenário no qual os modelos de vídeo atuais se degradam rapidamente. Os métodos existentes para geração de longo horizonte são fundamentalmente limitados por duas formas de degradação: esquecimento espacial e desvio temporal. À medida que a exploração prossegue, as regiões previamente observadas ficam fora do contexto temporal do modelo, forçando-o a alucinar estruturas quando são revisitadas. Entretanto, a geração autorregressiva acumula pequenos erros de síntese ao longo do tempo, distorcendo gradualmente a aparência e a geometria da cena. Apresentamos o Lyra 2.0, uma estrutura para gerar mundos 3D persistentes e exploráveis em escala. Para resolver o esquecimento espacial, mantemos a geometria 3D por quadro e a usamos apenas para o roteamento de informações – recuperando quadros passados relevantes e estabelecendo correspondências densas com os pontos de vista-alvo – enquanto dependemos do *prior* generativo para a síntese de aparência. Para abordar o desvio temporal, treinamos com histórias auto-aumentadas que expõem o modelo às suas próprias saídas degradadas, ensinando-o a corrigir o desvio em vez de propagá-lo. Juntas, estas técnicas permitem trajetórias de vídeo substancialmente mais longas e 3D-consistentes, que utilizamos para ajustar modelos de reconstrução *feed-forward* que recuperam de forma confiável cenas 3D de alta qualidade.

English

Recent advances in video generation enable a new paradigm for 3D scene creation: generating camera-controlled videos that simulate scene walkthroughs, then lifting them to 3D via feed-forward reconstruction techniques. This generative reconstruction approach combines the visual fidelity and creative capacity of video models with 3D outputs ready for real-time rendering and simulation. Scaling to large, complex environments requires 3D-consistent video generation over long camera trajectories with large viewpoint changes and location revisits, a setting where current video models degrade quickly. Existing methods for long-horizon generation are fundamentally limited by two forms of degradation: spatial forgetting and temporal drifting. As exploration proceeds, previously observed regions fall outside the model's temporal context, forcing the model to hallucinate structures when revisited. Meanwhile, autoregressive generation accumulates small synthesis errors over time, gradually distorting scene appearance and geometry. We present Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale. To address spatial forgetting, we maintain per-frame 3D geometry and use it solely for information routing -- retrieving relevant past frames and establishing dense correspondences with the target viewpoints -- while relying on the generative prior for appearance synthesis. To address temporal drifting, we train with self-augmented histories that expose the model to its own degraded outputs, teaching it to correct drift rather than propagate it. Together, these enable substantially longer and 3D-consistent video trajectories, which we leverage to fine-tune feed-forward reconstruction models that reliably recover high-quality 3D scenes.

Lyra 2.0: Mundos Generativos 3D Exploráveis

Lyra 2.0: Explorable Generative 3D Worlds

Resumo

Support