PixARMesh: メッシュネイティブな自己回帰型単眼シーン再構成

要旨

PixARMeshを紹介する。本手法は、単一のRGB画像から完全な3D室内シーンメッシュを直接、自己回帰的に復元する。従来の暗黙的な符号付き距離場と事後的なレイアウト最適化に依存する手法とは異なり、PixARMeshはオブジェクトのレイアウトと形状を統一モデル内で共同で予測し、一つのフォワードパスで首尾一貫したアーティスト品質のメッシュを生成する。メッシュ生成モデルの最近の進歩を基盤とし、点群エンコーダを、ピクセル位置に合わせた画像特徴量とクロスアテンションによる大域的なシーン文脈で拡張することで、単一画像からの正確な空間推論を可能にする。シーンは、文脈、ポーズ、メッシュを含む統一されたトークンストリームから自己回帰的に生成され、高精細な形状を持つコンパクトなメッシュが得られる。合成データセットと実世界データセットによる実験では、PixARMeshが軽量で高品質なメッシュを生成し、下流アプリケーションで即座に利用可能な状態で、最先端の復元品質を達成することを示している。

English

We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.

PixARMesh: メッシュネイティブな自己回帰型単眼シーン再構成

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

要旨

Support