Know3D: Anregung der 3D-Generierung mit Wissen aus Vision-Language-Modellen
Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
March 24, 2026
Autoren: Wenyue Chen, Wenjue Chen, Peng Li, Qinghe Wang, Xu Jia, Heliang Zheng, Rongfei Jia, Yuan Liu, Ronggang Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der 3D-Generierung haben die Detailtreue und geometrische Genauigkeit synthetisierter 3D-Objekte verbessert. Aufgrund der inhärenten Mehrdeutigkeit von Einzelansichtsbeobachtungen und dem Mangel an robusten globalen Strukturpriors, verursacht durch begrenzte 3D-Trainingsdaten, sind die von bestehenden Modellen generierten nicht einsehbaren Bereiche jedoch oft stochastisch und schwer zu kontrollieren. Dies kann dazu führen, dass sie manchmal nicht mit den Benutzerabsichten übereinstimmen oder unplausible Geometrien erzeugen. In diesem Artikel stellen wir Know3D vor, einen neuartigen Framework, der umfangreiches Wissen aus multimodalen Large Language Models über latente Hidden-State-Injection in 3D-Generierungsprozesse integriert und damit eine sprachlich steuerbare Generierung der Rückansicht von 3D-Objekten ermöglicht. Wir nutzen ein VLM-Diffusions-basiertes Modell, bei dem das VLM für semantisches Verständnis und Steuerung verantwortlich ist. Das Diffusionsmodell dient als Brücke, die semantisches Wissen vom VLM zum 3D-Generierungsmodell überträgt. Auf diese Weise überbrücken wir erfolgreich die Lücke zwischen abstrakten textuellen Anweisungen und der geometrischen Rekonstruktion nicht beobachteter Bereiche, wandeln die traditionell stochastische Halluzination der Rückansicht in einen semantisch steuerbaren Prozess um und zeigen damit eine vielversprechende Richtung für zukünftige 3D-Generierungsmodelle auf.
English
Recent advances in 3D generation have improved the fidelity and geometric details of synthesized 3D assets. However, due to the inherent ambiguity of single-view observations and the lack of robust global structural priors caused by limited 3D training data, the unseen regions generated by existing models are often stochastic and difficult to control, which may sometimes fail to align with user intentions or produce implausible geometries. In this paper, we propose Know3D, a novel framework that incorporates rich knowledge from multimodal large language models into 3D generative processes via latent hidden-state injection, enabling language-controllable generation of the back-view for 3D assets. We utilize a VLM-diffusion-based model, where the VLM is responsible for semantic understanding and guidance. The diffusion model acts as a bridge that transfers semantic knowledge from the VLM to the 3D generation model. In this way, we successfully bridge the gap between abstract textual instructions and the geometric reconstruction of unobserved regions, transforming the traditionally stochastic back-view hallucination into a semantically controllable process, demonstrating a promising direction for future 3D generation models.