PixARMesh : Reconstruction de scène monoculaire native maillée par autorégression
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
March 6, 2026
Auteurs: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI
Résumé
Nous présentons PixARMesh, une méthode permettant de reconstruire de manière autorégressive des maillages 3D complets de scènes intérieures directement à partir d'une seule image RVB. Contrairement aux méthodes antérieures qui reposent sur des champs de distance signée implicites et une optimisation a posteriori de la disposition, PixARMesh prédit conjointement la disposition des objets et la géométrie au sein d'un modèle unifié, produisant des maillages cohérents et prêts à l'emploi pour des artistes en une seule passe avant. En nous appuyant sur les récentes avancées des modèles génératifs de maillages, nous augmentons un encodeur de nuage de points avec des caractéristiques d'image alignées sur les pixels et un contexte global de scène via une attention croisée, permettant un raisonnement spatial précis à partir d'une seule image. Les scènes sont générées de manière autorégressive à partir d'un flux de jetons unifié contenant le contexte, la pose et le maillage, produisant des maillages compacts avec une géométrie haute fidélité. Les expériences sur des ensembles de données synthétiques et réelles montrent que PixARMesh atteint une qualité de reconstruction à la pointe tout en produisant des maillages légers et de haute qualité, prêts pour des applications en aval.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.