UniRecGen: Unificación de la Reconstrucción y Generación 3D Multivista
UniRecGen: Unifying Multi-View 3D Reconstruction and Generation
April 1, 2026
Autores: Zhisheng Huang, Jiahao Chen, Cheng Lin, Chenyu Hu, Hanzhuo Huang, Zhengming Yu, Mengfei Li, Yuheng Liu, Zekai Gu, Zibo Zhao, Yuan Liu, Xin Li, Wenping Wang
cs.AI
Resumen
La modelización 3D con vistas escasas representa una tensión fundamental entre la fidelidad de reconstrucción y la plausibilidad generativa. Mientras que la reconstrucción de propagación directa sobresale en eficiencia y alineación con la entrada, a menudo carece de los priors globales necesarios para la integridad estructural. Por el contrario, la generación basada en difusión proporciona ricos detalles geométricos pero lucha con la consistencia multi-vista. Presentamos UniRecGen, un marco unificado que integra estos dos paradigmas en un único sistema cooperativo. Para superar los conflictos inherentes en los espacios de coordenadas, representaciones 3D y objetivos de entrenamiento, alineamos ambos modelos dentro de un espacio canónico compartido. Empleamos un aprendizaje cooperativo desacoplado, que mantiene un entrenamiento estable permitiendo una colaboración fluida durante la inferencia. Específicamente, el módulo de reconstrucción se adapta para proporcionar anclajes geométricos canónicos, mientras que el generador de difusión aprovecha el condicionamiento de latentes aumentados para refinar y completar la estructura geométrica. Los resultados experimentales demuestran que UniRecGen logra una fidelidad y robustez superiores, superando a los métodos existentes en la creación de modelos 3D completos y consistentes a partir de observaciones escasas.
English
Sparse-view 3D modeling represents a fundamental tension between reconstruction fidelity and generative plausibility. While feed-forward reconstruction excels in efficiency and input alignment, it often lacks the global priors needed for structural completeness. Conversely, diffusion-based generation provides rich geometric details but struggles with multi-view consistency. We present UniRecGen, a unified framework that integrates these two paradigms into a single cooperative system. To overcome inherent conflicts in coordinate spaces, 3D representations, and training objectives, we align both models within a shared canonical space. We employ disentangled cooperative learning, which maintains stable training while enabling seamless collaboration during inference. Specifically, the reconstruction module is adapted to provide canonical geometric anchors, while the diffusion generator leverages latent-augmented conditioning to refine and complete the geometric structure. Experimental results demonstrate that UniRecGen achieves superior fidelity and robustness, outperforming existing methods in creating complete and consistent 3D models from sparse observations.