ChatPaper.aiChatPaper

iLRM: Un Modelo Iterativo de Reconstrucción 3D a Gran Escala

iLRM: An Iterative Large 3D Reconstruction Model

July 31, 2025
Autores: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park
cs.AI

Resumen

El modelado 3D feed-forward ha surgido como un enfoque prometedor para la reconstrucción 3D rápida y de alta calidad. En particular, la generación directa de representaciones 3D explícitas, como el splatting de Gaussianas 3D, ha atraído una atención significativa debido a su renderizado rápido y de alta calidad, así como a sus numerosas aplicaciones. Sin embargo, muchos métodos de vanguardia, basados principalmente en arquitecturas transformer, sufren graves problemas de escalabilidad porque dependen de una atención completa entre los tokens de imagen de múltiples vistas de entrada, lo que resulta en costos computacionales prohibitivos a medida que aumenta el número de vistas o la resolución de la imagen. Hacia una reconstrucción 3D feed-forward escalable y eficiente, presentamos un Modelo de Reconstrucción 3D Grande iterativo (iLRM) que genera representaciones de Gaussianas 3D mediante un mecanismo de refinamiento iterativo, guiado por tres principios fundamentales: (1) desacoplar la representación de la escena de las imágenes de las vistas de entrada para permitir representaciones 3D compactas; (2) descomponer las interacciones multi-vista de atención completa en un esquema de atención de dos etapas para reducir los costos computacionales; y (3) inyectar información de alta resolución en cada capa para lograr una reconstrucción de alta fidelidad. Los resultados experimentales en conjuntos de datos ampliamente utilizados, como RE10K y DL3DV, demuestran que iLRM supera a los métodos existentes tanto en calidad de reconstrucción como en velocidad. Notablemente, iLRM exhibe una escalabilidad superior, ofreciendo una calidad de reconstrucción significativamente mayor bajo un costo computacional comparable al aprovechar eficientemente un mayor número de vistas de entrada.
English
Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
PDF172August 1, 2025