PixARMesh: Reconstrução Autóregressiva de Cenas com Vista Única Nativa em Malha
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
March 6, 2026
Autores: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI
Resumo
Apresentamos o PixARMesh, um método para reconstruir autoregessivamente malhas 3D completas de cenas internas diretamente a partir de uma única imagem RGB. Diferente de métodos anteriores que dependem de campos de distância com sinal implícitos e otimização de layout *post-hoc*, o PixARMesh prevê conjuntamente o layout de objetos e a geometria dentro de um modelo unificado, produzindo malhas coerentes e prontas para artistas em um único *forward pass*. Com base em avanços recentes em modelos generativos de malha, aumentamos um codificador de nuvem de pontos com características de imagem alinhadas a pixels e contexto de cena global via *cross-attention*, permitindo um raciocínio espacial preciso a partir de uma única imagem. As cenas são geradas autoregessivamente a partir de um fluxo unificado de *tokens* contendo contexto, pose e malha, resultando em malhas compactas com geometria de alta fidelidade. Experimentos em conjuntos de dados sintéticos e do mundo real mostram que o PixARMesh atinge a qualidade de reconstrução estado da arte enquanto produz malhas leves e de alta qualidade prontas para aplicações subsequentes.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.