ChatPaper.aiChatPaper

PixARMesh: Reconstrucción Autoregresiva de Escenas Monoculares Nativas en Malla

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

March 6, 2026
Autores: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI

Resumen

Presentamos PixARMesh, un método para reconstruir autoregresivamente mallas 3D completas de escenas interiores directamente a partir de una única imagen RGB. A diferencia de métodos anteriores que dependen de campos de distancia con signo implícitos y optimización de distribución a posteriori, PixARMesh predice conjuntamente la distribución de objetos y la geometría dentro de un modelo unificado, produciendo mallas coherentes y listas para artistas en un único paso forward. Basándonos en avances recientes en modelos generativos de mallas, aumentamos un codificador de nube de puntos con características de imagen alineadas por píxel y contexto global de la escena mediante atención cruzada, lo que permite un razonamiento espacial preciso a partir de una sola imagen. Las escenas se generan de manera autoregresiva a partir de un flujo unificado de tokens que contiene contexto, pose y malla, produciendo mallas compactas con geometría de alta fidelidad. Los experimentos en conjuntos de datos sintéticos y del mundo real muestran que PixARMesh logra una calidad de reconstrucción state-of-the-art mientras produce mallas ligeras y de alta calidad listas para aplicaciones posteriores.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.
PDF22May 8, 2026