MeshAnything: 자동회귀 트랜스포머를 활용한 아티스트 주도 메시 생성
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
June 14, 2024
저자: Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang
cs.AI
초록
최근, 재구성 및 생성 기법을 통해 제작된 3D 자산은 수작업으로 제작된 자산의 품질에 필적할 정도로 발전하여 이를 대체할 가능성을 보여주고 있습니다. 그러나 이러한 잠재력은 아직 실현되지 못하고 있는데, 이는 이러한 자산들이 3D 산업 애플리케이션에서 사용되기 위해 항상 메시로 변환되어야 하는데, 현재의 메시 추출 방법으로 생성된 메시는 인간 아티스트가 제작한 Artist-Created Meshes (AMs)에 비해 현저히 떨어지기 때문입니다. 구체적으로, 현재의 메시 추출 방법은 밀집된 면에 의존하고 기하학적 특징을 무시함으로써 비효율성, 복잡한 후처리 과정, 그리고 낮은 표현 품질을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 메시 추출을 생성 문제로 접근하여 지정된 형태에 맞는 AMs를 생성하는 MeshAnything 모델을 소개합니다. MeshAnything은 어떤 3D 표현 방식으로 된 3D 자산이든 AMs로 변환할 수 있어, 다양한 3D 자산 제작 방법과 통합될 수 있으며, 이를 통해 3D 산업 전반에 걸쳐 그 활용성을 높일 수 있습니다. MeshAnything의 아키텍처는 VQ-VAE와 형태 조건부 디코더 전용 트랜스포머로 구성됩니다. 먼저 VQ-VAE를 사용하여 메시 어휘를 학습한 다음, 이 어휘를 기반으로 형태 조건부 디코더 전용 트랜스포머를 훈련시켜 형태 조건부 자기회귀 메시 생성을 수행합니다. 우리의 광범위한 실험 결과, 우리의 방법은 이전 방법들과 비슷한 정밀도를 유지하면서도 수백 배 적은 면으로 AMs를 생성하여 저장, 렌더링 및 시뮬레이션 효율성을 크게 향상시킴을 보여줍니다.
English
Recently, 3D assets created via reconstruction and generation have matched
the quality of manually crafted assets, highlighting their potential for
replacement. However, this potential is largely unrealized because these assets
always need to be converted to meshes for 3D industry applications, and the
meshes produced by current mesh extraction methods are significantly inferior
to Artist-Created Meshes (AMs), i.e., meshes created by human artists.
Specifically, current mesh extraction methods rely on dense faces and ignore
geometric features, leading to inefficiencies, complicated post-processing, and
lower representation quality. To address these issues, we introduce
MeshAnything, a model that treats mesh extraction as a generation problem,
producing AMs aligned with specified shapes. By converting 3D assets in any 3D
representation into AMs, MeshAnything can be integrated with various 3D asset
production methods, thereby enhancing their application across the 3D industry.
The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned
decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE,
then train the shape-conditioned decoder-only transformer on this vocabulary
for shape-conditioned autoregressive mesh generation. Our extensive experiments
show that our method generates AMs with hundreds of times fewer faces,
significantly improving storage, rendering, and simulation efficiencies, while
achieving precision comparable to previous methods.Summary
AI-Generated Summary