UniMesh: Unificatie van 3D-maasbegrip en -generatie
UniMesh: Unifying 3D Mesh Understanding and Generation
April 19, 2026
Auteurs: Peng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang
cs.AI
Samenvatting
Recente vooruitgang in 3D-visie heeft geleid tot gespecialiseerde modellen voor óf 3D-begrip (bijvoorbeeld vormclassificatie, segmentatie, reconstructie) óf 3D-generatie (bijvoorbeeld synthese, completie en bewerking). Deze taken worden echter vaak geïsoleerd aangepakt, wat resulteert in gefragmenteerde architecturen en representaties die kennisoverdracht en holistische scènemodellering belemmeren. Om deze uitdagingen aan te pakken, stellen we UniMesh voor, een unified framework dat 3D-generatie en -begrip gezamenlijk aanleert binnen een enkele architectuur. Ten eerste introduceren we een nieuwe Mesh Head die fungeert als een cross-model interface, en een brug slaat tussen op diffusie gebaseerde beeldgeneratie en impliciete vormdecoders. Ten tweede ontwikkelen we Chain of Mesh (CoM), een geometrische instantiatie van iteratief redeneren die gebruikersgestuurd semantisch mesh-editen mogelijk maakt via een gesloten lus van latent, prompting en regeneratie. Ten derde incorporeren we een zelfreflectiemechanisme gebaseerd op een Actor-Evaluator-Zelfreflectie-triad om fouten in hoogwaardige taken zoals 3D-beschrijving te diagnosticeren en te corrigeren. Experimentele resultaten tonen aan dat UniMesh niet alleen competitieve prestaties behaalt op standaard benchmarks, maar ook nieuwe mogelijkheden ontgrendelt in iteratief editen en wederzijdse verbetering tussen generatie en begrip. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
English
Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.