UniMesh : Unification de la compréhension et de la génération de maillages 3D

Résumé

Les progrès récents en vision 3D ont conduit au développement de modèles spécialisés pour soit la compréhension 3D (par exemple, la classification de formes, la segmentation, la reconstruction), soit la génération 3D (par exemple, la synthèse, la complétion et l'édition). Cependant, ces tâches sont souvent abordées de manière isolée, ce qui entraîne des architectures et des représentations fragmentées qui entravent le transfert de connaissances et la modélisation holistique des scènes. Pour relever ces défis, nous proposons UniMesh, un cadre unifié qui apprend conjointement la génération et la compréhension 3D au sein d'une architecture unique. Premièrement, nous introduisons une nouvelle Tête de Maillage (Mesh Head) qui agit comme une interface de modèle croisé, reliant la génération d'images basée sur la diffusion à des décodeurs de formes implicites. Deuxièmement, nous développons la Chaîne de Maillage (Chain of Mesh - CoM), une instanciation géométrique du raisonnement itératif qui permet l'édition sémantique de maillages pilotée par l'utilisateur via un cycle fermé de latence, d'incitation et de régénération. Troisièmement, nous intégrons un mécanisme d'autoréflexion basé sur une triade Acteur-Évaluateur-Autoréflexion pour diagnostiquer et corriger les échecs dans des tâches de haut niveau comme le sous-titrage 3D. Les résultats expérimentaux démontrent qu'UniMesh non seulement atteint des performances compétitives sur des benchmarks standard, mais débloque également de nouvelles capacités en matière d'édition itérative et d'amélioration mutuelle entre la génération et la compréhension. Code : https://github.com/AIGeeksGroup/UniMesh. Site web : https://aigeeksgroup.github.io/UniMesh.

English

Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.

UniMesh : Unification de la compréhension et de la génération de maillages 3D

UniMesh: Unifying 3D Mesh Understanding and Generation

Résumé

Support