Know3D: 3D-generatie aansturen met kennis uit visueel-taalmodel
Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
March 24, 2026
Auteurs: Wenyue Chen, Wenjue Chen, Peng Li, Qinghe Wang, Xu Jia, Heliang Zheng, Rongfei Jia, Yuan Liu, Ronggang Wang
cs.AI
Samenvatting
Recente vooruitgang in 3D-generatie heeft de nauwkeurigheid en geometrische details van gesynthetiseerde 3D-assets verbeterd. Echter, door de inherente ambiguïteit van waarnemingen vanuit één gezichtspunt en het gebrek aan robuuste globale structurele priors als gevolg van beperkte 3D-trainingsdata, zijn de onzichtbare regio's gegenereerd door bestaande modellen vaak stochastisch en moeilijk te controleren. Dit kan soms niet overeenkomen met de intenties van de gebruiker of ongeloofwaardige geometrieën produceren. In dit artikel stellen we Know3D voor, een nieuw framework dat rijke kennis uit multimodale grote taalmodelen integreert in 3D-generatieprocessen via latent hidden-state injectie, waardoor taalgestuurde generatie van de achterzijde voor 3D-assets mogelijk wordt. We gebruiken een op VLM-diffusie gebaseerd model, waarbij de VLM verantwoordelijk is voor semantisch begrip en begeleiding. Het diffusiemodel fungeert als een brug die semantische kennis van de VLM overbrengt naar het 3D-generatiemodel. Op deze manier overbruggen we succesvol de kloof tussen abstracte tekstuele instructies en de geometrische reconstructie van niet-waarneembare regio's, waarbij we de traditioneel stochastische hallucinatie van de achterzijde transformeren in een semantisch controleerbaar proces. Dit toont een veelbelovende richting voor toekomstige 3D-generatiemodellen aan.
English
Recent advances in 3D generation have improved the fidelity and geometric details of synthesized 3D assets. However, due to the inherent ambiguity of single-view observations and the lack of robust global structural priors caused by limited 3D training data, the unseen regions generated by existing models are often stochastic and difficult to control, which may sometimes fail to align with user intentions or produce implausible geometries. In this paper, we propose Know3D, a novel framework that incorporates rich knowledge from multimodal large language models into 3D generative processes via latent hidden-state injection, enabling language-controllable generation of the back-view for 3D assets. We utilize a VLM-diffusion-based model, where the VLM is responsible for semantic understanding and guidance. The diffusion model acts as a bridge that transfers semantic knowledge from the VLM to the 3D generation model. In this way, we successfully bridge the gap between abstract textual instructions and the geometric reconstruction of unobserved regions, transforming the traditionally stochastic back-view hallucination into a semantically controllable process, demonstrating a promising direction for future 3D generation models.