ChatPaper.aiChatPaper

iLRM: Итеративная модель для масштабной 3D-реконструкции

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
Авторы: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

Аннотация

Прямое (feed-forward) 3D-моделирование стало перспективным подходом для быстрого и качественного 3D-реконструирования. В частности, прямое генерирование явных 3D-представлений, таких как 3D-сплайнинг на основе гауссовых функций, привлекло значительное внимание благодаря быстрому и качественному рендерингу, а также многочисленным приложениям. Однако многие современные методы, в основном основанные на архитектурах трансформеров, сталкиваются с серьезными проблемами масштабируемости, поскольку они полагаются на полное внимание между токенами изображений из нескольких входных видов, что приводит к непомерным вычислительным затратам при увеличении числа видов или разрешения изображений. В направлении масштабируемого и эффективного прямого 3D-реконструирования мы представляем итеративную модель крупномасштабного 3D-реконструирования (iLRM), которая генерирует 3D-представления на основе гауссовых функций через механизм итеративного уточнения, руководствуясь тремя основными принципами: (1) разделение представления сцены от изображений входных видов для создания компактных 3D-представлений; (2) декомпозиция полностью внимательных взаимодействий между несколькими видами в двухэтапную схему внимания для снижения вычислительных затрат; и (3) внедрение информации высокого разрешения на каждом слое для достижения высококачественной реконструкции. Экспериментальные результаты на широко используемых наборах данных, таких как RE10K и DL3DV, демонстрируют, что iLRM превосходит существующие методы как по качеству реконструкции, так и по скорости. В частности, iLRM демонстрирует превосходную масштабируемость, обеспечивая значительно более высокое качество реконструкции при сопоставимых вычислительных затратах за счет эффективного использования большего числа входных видов.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF172August 1, 2025