ChatPaper.aiChatPaper

iLRM : Un modèle itératif de reconstruction 3D à grande échelle

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
papers.authors: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

papers.abstract

La modélisation 3D feed-forward s'est imposée comme une approche prometteuse pour une reconstruction 3D rapide et de haute qualité. En particulier, la génération directe de représentations 3D explicites, telles que le splatting de Gaussiennes 3D, a suscité un intérêt considérable en raison de son rendu rapide et de haute qualité, ainsi que de ses nombreuses applications. Cependant, de nombreuses méthodes de pointe, principalement basées sur des architectures de type transformer, souffrent de problèmes de scalabilité importants car elles reposent sur une attention complète entre les tokens d'images provenant de multiples vues d'entrée, ce qui entraîne des coûts de calcul prohibitifs à mesure que le nombre de vues ou la résolution des images augmente. Pour une reconstruction 3D feed-forward scalable et efficace, nous introduisons un modèle itératif de reconstruction 3D à grande échelle (iLRM) qui génère des représentations de Gaussiennes 3D via un mécanisme de raffinement itératif, guidé par trois principes clés : (1) découpler la représentation de la scène des images des vues d'entrée pour permettre des représentations 3D compactes ; (2) décomposer les interactions multi-vues à attention complète en un schéma d'attention en deux étapes pour réduire les coûts de calcul ; et (3) injecter des informations à haute résolution à chaque couche pour obtenir une reconstruction haute fidélité. Les résultats expérimentaux sur des ensembles de données largement utilisés, tels que RE10K et DL3DV, démontrent qu'iLRM surpasse les méthodes existantes à la fois en qualité de reconstruction et en vitesse. Notamment, iLRM présente une scalabilité supérieure, offrant une qualité de reconstruction significativement plus élevée à un coût de calcul comparable en exploitant efficacement un plus grand nombre de vues d'entrée.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF172August 1, 2025