UniMesh: Vereinheitlichung des 3D-Mesh-Verständnisses und der -Generierung
UniMesh: Unifying 3D Mesh Understanding and Generation
April 19, 2026
Autoren: Peng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der 3D-Vision haben zu spezialisierten Modellen für entweder 3D-Verstehen (z.B. Formklassifikation, Segmentierung, Rekonstruktion) oder 3D-Generierung (z.B. Synthese, Vervollständigung und Bearbeitung) geführt. Diese Aufgaben werden jedoch oft isoliert betrachtet, was zu fragmentierten Architekturen und Repräsentationen führt, die den Wissenstransfer und die ganzheitliche Szenenmodellierung behindern. Um diese Herausforderungen zu adressieren, schlagen wir UniMesh vor, einen einheitlichen Rahmen, der 3D-Generierung und -Verstehen gemeinsam in einer einzigen Architektur erlernt. Erstens führen wir einen neuartigen Mesh-Head ein, der als modellübergreifende Schnittstelle fungiert und diffusionsbasierte Bildgenerierung mit impliziten Formdecodern verbindet. Zweitens entwickeln wir Chain of Mesh (CoM), eine geometrische Instanziierung von iterativem Reasoning, die benutzergesteuerte semantische Mesh-Bearbeitung durch einen geschlossenen Kreislauf aus Latent-Prompting und Neugenerierung ermöglicht. Drittens integrieren wir einen Selbstreflexionsmechanismus, basierend auf einer Akteur-Bewerter-Selbstreflexions-Triade, um Fehler in hochrangigen Aufgaben wie 3D-Beschriftung zu diagnostizieren und zu korrigieren. Experimentelle Ergebnisse zeigen, dass UniMesh nicht nur eine wettbewerbsfähige Leistung auf Standard-Benchmarks erzielt, sondern auch neuartige Fähigkeiten in iterativer Bearbeitung und gegenseitiger Verbesserung zwischen Generierung und Verstehen freisetzt. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
English
Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.