PixARMesh: Авторегрессионная реконструкция сцены по одному изображению на основе меш-представления
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
March 6, 2026
Авторы: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI
Аннотация
Мы представляем PixARMesh — метод авторегрессивного восстановления полных 3D мешей внутренних помещений непосредственно по одному RGB-изображению. В отличие от предыдущих подходов, основанных на неявных полях знаковых расстояний и последующей оптимизации планировки, PixARMesh совместно предсказывает компоновку объектов и геометрию в рамках единой модели, создавая согласованные меши, готовые к использованию художниками, за один прямой проход. Опираясь на последние достижения в генеративных моделях мешей, мы дополняем кодировщик облака точек пиксельно-выровненными признаками изображения и глобальным контекстом сцены с помощью кросс-внимания, что обеспечивает точное пространственное моделирование по одному изображению. Сцены генерируются авторегрессивно из единого потока токенов, содержащего контекст, позу и меш, что позволяет получать компактные меши с высокодетальной геометрией. Эксперименты на синтетических и реальных данных показывают, что PixARMesh достигает высочайшего качества реконструкции, создавая легковесные и качественные меши, готовые для последующих приложений.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.