PixARMesh: Ricostruzione Autoregressiva di Scene da Vista Singola Nativa alla Mesh
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
March 6, 2026
Autori: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI
Abstract
Introduciamo PixARMesh, un metodo per ricostruire autoregressivamente mesh 3D complete di scene indoor direttamente da una singola immagine RGB. A differenza dei metodi precedenti che si basano su campi di distanza con segno impliciti e ottimizzazioni a posteriori del layout, PixARMesh predice congiuntamente il layout degli oggetti e la geometria all'interno di un modello unificato, producendo mesh coerenti e pronte per l'uso artistico in un unico passaggio in avanti. Basandoci sui recenti progressi nei modelli generativi di mesh, potenziamo un codificatore di nuvole di punti con caratteristiche immagine allineate ai pixel e contesto scenico globale tramite cross-attention, consentendo un ragionamento spaziale accurato a partire da una singola immagine. Le scene sono generate autoregressivamente da un flusso di token unificato contenente contesto, posa e mesh, producendo mesh compatte con geometria ad alta fedeltà. Esperimenti su dataset sintetici e del mondo reale mostrano che PixARMesh raggiunge una qualità di ricostruzione allo stato dell'arte producendo al contempo mesh leggere e di alta qualità, pronte per applicazioni a valle.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.