ChatPaper.aiChatPaper

PixARMesh: Autoregressive mesh-native Rekonstruktion von Szenen aus Einzelansichten

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

March 6, 2026
Autoren: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI

Zusammenfassung

Wir stellen PixARMesh vor, eine Methode zur autoregressiven Rekonstruktion vollständiger 3D-Innenraumszenen-Meshes direkt aus einem einzelnen RGB-Bild. Im Gegensatz zu früheren Ansätzen, die auf impliziten Signed Distance Fields und nachgelagerter Layoutoptimierung basieren, sagt PixARMesh Objektlayout und -geometrie gemeinsam innerhalb eines einheitlichen Modells vorher und erzeugt kohärente, direkt verwendbare Meshes in einem einzigen Vorwärtsdurchlauf. Aufbauend auf aktuellen Fortschritten bei Mesh-Generierungsmodellen erweitern wir einen Punktwolken-Encoder mit pixelalignierten Bildmerkmalen und globalem Szenenkontext über Cross-Attention, was eine präzise räumliche Reasoning aus einem Einzelbild ermöglicht. Szenen werden autoregressiv aus einem einheitlichen Token-Stream erzeugt, der Kontext, Pose und Mesh enthält, und ergeben kompakte Meshes mit hochpräziser Geometrie. Experimente auf synthetischen und realen Datensätzen zeigen, dass PixARMesh state-of-the-art Rekonstruktionsqualität erreicht und dabei leichte, hochwertige Meshes liefert, die direkt für nachgelagerte Anwendungen einsetzbar sind.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.
PDF22May 8, 2026