ChatPaper.aiChatPaper

インプリシットを歩く:ニューラルシーン表現によるインタラクティブな世界探索

Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

June 29, 2026
著者: Zhiqi Li, Chengrui Dong, Zhenhua Du, Hangning Zhou, Cong Qiu, Hailong Qin, Mu Yang, Dongxu Wei, Peidong Liu
cs.AI

要旨

カメラ制御による世界探索のためのインタラクティブな映像生成システムは、潜在的なビデオフレームの逐次的な系列を生成し、状態遷移と高周波の観測合成とを絡み合わせる。本論文では、「Walking in the Implicit」というシーン中心のパラダイムを提案する。これは、生成の展開変数をフレームの潜在変数から、固定長でレンダリング可能な暗黙状態、すなわちNeural Implicit Scene(NIS)に変更するものである。このアプローチにより、インタラクティブ生成を、コンパクトなシーン状態の確率的遷移と、サンプリングされた状態に基づく姿勢条件付きの決定論的レンダリングに分解する。本パラダイムをNeuWorldとして具体化する。トランスフォーマーVAEが、疎な姿勢付きフレームから局所的にアンカーされたNISを学習し、拡散トランスフォーマーが、将来のカメラ軌跡と幾何学的に認識された検索履歴に条件付けられてNISを進化させる。VAEエンコーダを統一的な条件付け器として再利用することで、NeuWorldはカメラ、参照画像、履歴の手がかりを同一のNISモダリティにマッピングし、外部の異種エンコーダを不要とする。事前学習済みのビデオバックボーンや補助的な3次元再構成器を用いずに、公開されている姿勢付きビューデータからスクラッチで学習したNeuWorldは、良好な推論効率を伴いながら、強力な長期的一貫性を達成する。
English
Interactive video generation systems for camera-controlled world exploration roll out growing sequences of latent video frames, entangling state transition with high-frequency observation synthesis. We propose Walking in the Implicit, a scene-centric paradigm that changes the rollout variable from frame latents to a fixed-length, renderable implicit state, termed Neural Implicit Scene (NIS). This factorizes interactive generation into stochastic transition of a compact scene state and deterministic pose-conditioned rendering given the sampled state. We instantiate this paradigm as NeuWorld: a transformer VAE learns locally anchored NIS from sparse posed frames, and a diffusion transformer evolves NIS conditioned on future camera trajectories and geometry-aware retrieved history. By reusing the VAE encoder as a unified conditioner, NeuWorld maps camera, reference-image, and history cues into the same NIS modality, avoiding external heterogeneous encoders. Trained from scratch on public posed-view data without pretrained video backbones or auxiliary 3D reconstructors, NeuWorld achieves strong long-horizon consistency with favorable inference efficiency.