ChatPaper.aiChatPaper

UniMesh: Unificando a Compreensão e Geração de Malhas 3D

UniMesh: Unifying 3D Mesh Understanding and Generation

April 19, 2026
Autores: Peng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang
cs.AI

Resumo

Os recentes avanços na visão 3D levaram ao desenvolvimento de modelos especializados para compreensão 3D (por exemplo, classificação de formas, segmentação, reconstrução) ou para geração 3D (por exemplo, síntese, conclusão e edição). No entanto, essas tarefas são frequentemente abordadas de forma isolada, resultando em arquiteturas e representações fragmentadas que dificultam a transferência de conhecimento e a modelagem holística de cenas. Para enfrentar esses desafios, propomos o UniMesh, um framework unificado que aprende conjuntamente a geração e a compreensão 3D dentro de uma única arquitetura. Primeiro, introduzimos um novo *Mesh Head* que atua como uma interface de modelo cruzado, ligando a geração de imagens baseada em difusão com decodificadores de forma implícita. Segundo, desenvolvemos a *Chain of Mesh* (CoM), uma instanciação geométrica do raciocínio iterativo que permite a edição semântica de malhas orientada pelo utilizador através de um ciclo fechado de latente, *prompting* e regeneração. Terceiro, incorporamos um mecanismo de autorreflexão baseado numa tríade *Actor-Evaluator-Self-reflection* para diagnosticar e corrigir falhas em tarefas de alto nível, como a legendagem 3D. Resultados experimentais demonstram que o UniMesh não só alcança um desempenho competitivo em *benchmarks* padrão, como também desbloqueia novas capacidades na edição iterativa e no aprimoramento mútuo entre a geração e a compreensão. Código: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
English
Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
PDF51April 23, 2026