UniMesh: Унификация понимания и генерации 3D-мешей
UniMesh: Unifying 3D Mesh Understanding and Generation
April 19, 2026
Авторы: Peng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang
cs.AI
Аннотация
Последние достижения в области 3D-видения привели к созданию специализированных моделей для решения либо задач понимания 3D-сцен (например, классификация форм, сегментация, реконструкция), либо задач генерации 3D-данных (например, синтез, достраивание и редактирование). Однако эти задачи часто решаются изолированно, что приводит к фрагментированным архитектурам и представлениям, препятствующим передаче знаний и целостному моделированию сцен. Для решения этих проблем мы предлагаем UniMesh — унифицированную систему, которая совместно обучается генерации и пониманию 3D-данных в рамках единой архитектуры. Во-первых, мы представляем новый Mesh Head, который выступает в качестве кроссмодельного интерфейса, связывающего диффузионную генерацию изображений с неявными декодерами форм. Во-вторых, мы разрабатывали Chain of Mesh (CoM) — геометрическую реализацию итеративного рассуждения, которая позволяет осуществлять управляемое пользователем семантическое редактирование сетки через замкнутый цикл латентного пространства, промптинга и повторной генерации. В-третьих, мы внедрили механизм саморефлексии, основанный на триаде «Актор-Оценщик-Самоанализ», для диагностики и исправления ошибок в сложных задачах, таких как описание 3D-сцен. Результаты экспериментов показывают, что UniMesh не только демонстрирует конкурентоспособные результаты на стандартных бенчмарках, но и открывает новые возможности в области итеративного редактирования и взаимного усиления генерации и понимания. Код: https://github.com/AIGeeksGroup/UniMesh. Сайт: https://aigeeksgroup.github.io/UniMesh.
English
Recent advances in 3D vision have led to specialized models for either 3D understanding (e.g., shape classification, segmentation, reconstruction) or 3D generation (e.g., synthesis, completion, and editing). However, these tasks are often tackled in isolation, resulting in fragmented architectures and representations that hinder knowledge transfer and holistic scene modeling. To address these challenges, we propose UniMesh, a unified framework that jointly learns 3D generation and understanding within a single architecture. First, we introduce a novel Mesh Head that acts as a cross model interface, bridging diffusion based image generation with implicit shape decoders. Second, we develop Chain of Mesh (CoM), a geometric instantiation of iterative reasoning that enables user driven semantic mesh editing through a closed loop latent, prompting, and re generation cycle. Third, we incorporate a self reflection mechanism based on an Actor Evaluator Self reflection triad to diagnose and correct failures in high level tasks like 3D captioning. Experimental results demonstrate that UniMesh not only achieves competitive performance on standard benchmarks but also unlocks novel capabilities in iterative editing and mutual enhancement between generation and understanding. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.