MeshFlow: Генерация сеток с эквивариантным согласованием потоков

Аннотация

Сетки являются одними из наиболее распространенных способов представления трехмерных сцен, однако прямая генерация сеток затруднена из-за наличия в этом представлении важных симметрий, включая инвариантность к перестановкам граней и вершин. MeshFlow учится генерировать треугольные сетки непосредственно как треугольные супы, избегая необходимости сериализации сеток в длинные авторегрессионные последовательности. Мы используем эквивариантные модели согласования потоков на основе оптимального транспорта, которые учитывают ключевые симметрии треугольных супов: произвольные перестановки граней и перестановки вершин внутри каждой грани. Для достижения этой цели мы предлагаем простую, но эффективную модификацию архитектуры Diffusion Transformer, что приводит к масштабируемой сети, способной моделировать поле скоростей с сохранением требуемой эквивариантности. Кроме того, мы вводим целевую функцию обучения на основе оптимального транспорта, которая улучшает сходимость за счет устранения сигналов обратной связи, нарушающих эти симметрии. MeshFlow достигает качества сеток, сравнимого с современными авторегрессионными генераторами сеток, обеспечивая при этом ускорение примерно в 18 раз в процессе инференса. Страница проекта: https://qiisun.github.io/MeshFlow/.

English

Meshes are among the most common 3D scene representations, but directly generating meshes is challenging because the representation contains important symmetries, including permutation invariance of faces and vertices. MeshFlow learns to generate triangle meshes directly as triangle soups, avoiding the need to serialize meshes into long autoregressive sequences. We adopt equivariant optimal-transport flow matching models that respect the key symmetries of triangle soups: arbitrary permutations of faces and permutations of the vertices within each face. Toward this goal, we propose a simple yet effective modification to the Diffusion Transformer architecture, resulting in a scalable network capable of modeling a velocity field while maintaining the desired equivariance. We further introduce an optimal-transport-based training objective that improves convergence by eliminating supervision signals that violate these symmetries. MeshFlow achieves mesh quality comparable to state-of-the-art autoregressive mesh generators while providing about an 18times speedup during inference. Project page is at https://qiisun.github.io/MeshFlow/.