ChatPaper.aiChatPaper

UniRecGen: Unificação de Reconstrução e Geração 3D Multivisão

UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

April 1, 2026
Autores: Zhisheng Huang, Jiahao Chen, Cheng Lin, Chenyu Hu, Hanzhuo Huang, Zhengming Yu, Mengfei Li, Yuheng Liu, Zekai Gu, Zibo Zhao, Yuan Liu, Xin Li, Wenping Wang
cs.AI

Resumo

A modelagem 3D com vistas esparsas representa uma tensão fundamental entre a fidelidade de reconstrução e a plausibilidade generativa. Embora a reconstrução *feed-forward* se destaque em eficiência e alinhamento com a entrada, frequentemente carece dos *priors* globais necessários para a completude estrutural. Por outro lado, a geração baseada em difusão fornece detalhes geométricos ricos, mas luta com a consistência multi-vista. Apresentamos o UniRecGen, uma estrutura unificada que integra esses dois paradigmas em um único sistema cooperativo. Para superar os conflitos inerentes nos espaços de coordenadas, representações 3D e objetivos de treinamento, alinhamos ambos os modelos dentro de um espaço canônico compartilhado. Empregamos um aprendizado cooperativo desacoplado, que mantém o treinamento estável enquanto permite uma colaboração perfeita durante a inferência. Especificamente, o módulo de reconstrução é adaptado para fornecer âncoras geométricas canônicas, enquanto o gerador de difusão aproveita o condicionamento com aumento latente para refinar e completar a estrutura geométrica. Resultados experimentais demonstram que o UniRecGen alcança uma fidelidade e robustez superiores, superando os métodos existentes na criação de modelos 3D completos e consistentes a partir de observações esparsas.
English
Sparse-view 3D modeling represents a fundamental tension between reconstruction fidelity and generative plausibility. While feed-forward reconstruction excels in efficiency and input alignment, it often lacks the global priors needed for structural completeness. Conversely, diffusion-based generation provides rich geometric details but struggles with multi-view consistency. We present UniRecGen, a unified framework that integrates these two paradigms into a single cooperative system. To overcome inherent conflicts in coordinate spaces, 3D representations, and training objectives, we align both models within a shared canonical space. We employ disentangled cooperative learning, which maintains stable training while enabling seamless collaboration during inference. Specifically, the reconstruction module is adapted to provide canonical geometric anchors, while the diffusion generator leverages latent-augmented conditioning to refine and complete the geometric structure. Experimental results demonstrate that UniRecGen achieves superior fidelity and robustness, outperforming existing methods in creating complete and consistent 3D models from sparse observations.
PDF21April 4, 2026