Know3D: Estimulando a Geração 3D com Conhecimento de Modelos Visão-Linguagem

Resumo

Os recentes avanços na geração 3D têm melhorado a fidelidade e os detalhes geométricos dos ativos 3D sintetizados. No entanto, devido à ambiguidade inerente das observações de vista única e à falta de *priors* estruturais globais robustos causada pela limitação dos dados de treinamento 3D, as regiões não visíveis geradas pelos modelos existentes são frequentemente estocásticas e de difícil controle, podendo, por vezes, não se alinhar com as intenções do usuário ou produzir geometrias implausíveis. Neste artigo, propomos o Know3D, uma nova estrutura que incorpora conhecimento rico de modelos de linguagem grandes multimodais nos processos generativos 3D por meio da injeção de estados ocultos latentes, permitindo a geração controlada por linguagem da vista traseira de ativos 3D. Utilizamos um modelo baseado em VLM-difusão, onde o VLM é responsável pela compreensão e orientação semântica. O modelo de difusão atua como uma ponte que transfere o conhecimento semântico do VLM para o modelo de geração 3D. Desta forma, conseguimos preencher a lacuna entre instruções textuais abstratas e a reconstrução geométrica de regiões não observadas, transformando a tradicional alucinação estocástica da vista traseira em um processo semanticamente controlável, demonstrando uma direção promissora para futuros modelos de geração 3D.

English

Recent advances in 3D generation have improved the fidelity and geometric details of synthesized 3D assets. However, due to the inherent ambiguity of single-view observations and the lack of robust global structural priors caused by limited 3D training data, the unseen regions generated by existing models are often stochastic and difficult to control, which may sometimes fail to align with user intentions or produce implausible geometries. In this paper, we propose Know3D, a novel framework that incorporates rich knowledge from multimodal large language models into 3D generative processes via latent hidden-state injection, enabling language-controllable generation of the back-view for 3D assets. We utilize a VLM-diffusion-based model, where the VLM is responsible for semantic understanding and guidance. The diffusion model acts as a bridge that transfers semantic knowledge from the VLM to the 3D generation model. In this way, we successfully bridge the gap between abstract textual instructions and the geometric reconstruction of unobserved regions, transforming the traditionally stochastic back-view hallucination into a semantically controllable process, demonstrating a promising direction for future 3D generation models.