ChatPaper.aiChatPaper

PixARMesh: Autoregressieve Mesh-Native Reconstructie van Scènes vanuit Enkel Beeld

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

March 6, 2026
Auteurs: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI

Samenvatting

Wij introduceren PixARMesh, een methode om autogressief complete 3D-binnenscènemeshs direct vanuit een enkele RGB-afbeelding te reconstrueren. In tegenstelling tot eerdere methoden die vertrouwen op impliciete signed distance fields en post-hoc lay-outoptimalisatie, voorspelt PixARMesh objectlay-out en -geometrie gezamenlijk binnen een unified model, waarbij coherente en direct bruikbare meshs in één enkele forward pass worden geproduceerd. Voortbouwend op recente vooruitgang in generatieve meshmodellen, rusten we een point-cloud-encoder uit met pixel-uitgelijnde beeldkenmerken en globale scènecontext via cross-attention, waardoor accurate ruimtelijke redenering vanuit een enkele afbeelding mogelijk wordt. Scènes worden autogressief gegenereerd vanuit een unified tokenstroom die context, pose en mesh bevat, wat compacte meshs met hoogwaardige geometrie oplevert. Experimenten op synthetische en real-world datasets tonen aan dat PixARMesh state-of-the-art reconstructiekwaliteit bereikt, terwijl het lichte, hoogwaardige meshs produceert die direct klaar zijn voor downstream-toepassingen.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.
PDF22March 10, 2026