UniMesh: Unificazione della Comprensione e Generazione di Mesh 3D

Abstract

I recenti progressi nella visione 3D hanno portato allo sviluppo di modelli specializzati per la comprensione 3D (ad esempio, classificazione di forme, segmentazione, ricostruzione) o per la generazione 3D (ad esempio, sintesi, completamento e modifica). Tuttavia, questi compiti sono spesso affrontati in modo isolato, dando luogo a architetture e rappresentazioni frammentate che ostacolano il trasferimento di conoscenze e la modellazione olistica della scena. Per affrontare queste sfide, proponiamo UniMesh, un framework unificato che apprende congiuntamente la generazione e la comprensione 3D all'interno di un'unica architettura. In primo luogo, introduciamo una nuova Mesh Head che funge da interfaccia cross-model, collegando la generazione di immagini basata su diffusione con decoder di forme implicite. In secondo luogo, sviluppiamo la Catena di Mesh (Chain of Mesh, CoM), un'istanziazione geometrica del ragionamento iterativo che abilita la modifica semantica di mesh guidata dall'utente attraverso un ciclo chiuso di latente, prompting e rigenerazione. In terzo luogo, incorporiamo un meccanismo di autoriflessione basato su una triade Attore-Valutatore-Autoriflessione per diagnosticare e correggere gli errori in compiti di alto livello come la descrizione in linguaggio naturale di scene 3D. I risultati sperimentali dimostrano che UniMesh non solo raggiunge prestazioni competitive su benchmark standard, ma sblocca anche nuove capacità nell'editing iterativo e nel miglioramento reciproco tra generazione e comprensione. Codice: https://github.com/AIGeeksGroup/UniMesh. Sito web: https://aigeeksgroup.github.io/UniMesh.

English

Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.

UniMesh: Unificazione della Comprensione e Generazione di Mesh 3D

UniMesh: Unifying 3D Mesh Understanding and Generation

Abstract

Support