UniMesh: Unificación de la Comprensión y Generación de Mallas 3D

Resumen

Los recientes avances en visión 3D han dado lugar a modelos especializados para la comprensión 3D (por ejemplo, clasificación de formas, segmentación, reconstrucción) o para la generación 3D (por ejemplo, síntesis, completado y edición). Sin embargo, estas tareas suelen abordarse de forma aislada, lo que da lugar a arquitecturas y representaciones fragmentadas que dificultan la transferencia de conocimiento y el modelado holístico de escenas. Para abordar estos desafíos, proponemos UniMesh, un marco unificado que aprende conjuntamente la generación y la comprensión 3D dentro de una única arquitectura. En primer lugar, presentamos una novedosa Cabeza de Malla (Mesh Head) que actúa como interfaz de modelo cruzado, tendiendo un puente entre la generación de imágenes basada en difusión y los decodificadores de formas implícitas. En segundo lugar, desarrollamos la Cadena de Malla (Chain of Mesh, CoM), una instanciación geométrica del razonamiento iterativo que permite la edición semántica de mallas guiada por el usuario a través de un ciclo cerrado de latente, prompting y regeneración. En tercer lugar, incorporamos un mecanismo de autorreflexión basado en una tríada Actor-Evaluador-Autorreflexión para diagnosticar y corregir fallos en tareas de alto nivel, como la descripción de escenas 3D. Los resultados experimentales demuestran que UniMesh no solo logra un rendimiento competitivo en benchmarks estándar, sino que también desbloquea nuevas capacidades en la edición iterativa y la mejora mutua entre la generación y la comprensión. Código: https://github.com/AIGeeksGroup/UniMesh. Sitio web: https://aigeeksgroup.github.io/UniMesh.

English

Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.

UniMesh: Unificación de la Comprensión y Generación de Mallas 3D

UniMesh: Unifying 3D Mesh Understanding and Generation

Resumen

Support