StyleMM: 텍스트 기반 정렬 이미지 변환을 통한 스타일화된 3D 형태 변환 가능 얼굴 모델
StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation
August 15, 2025
저자: Seungmi Lee, Kwan Yun, Junyong Noh
cs.AI
초록
본 논문에서는 사용자 정의 텍스트 설명을 기반으로 특정 스타일을 지정하여 스타일화된 3D Morphable Model(3DMM)을 구축할 수 있는 새로운 프레임워크인 StyleMM을 소개한다. 기존의 3DMM 기반 사실적인 인간 얼굴을 위한 사전 훈련된 메시 변형 네트워크와 텍스처 생성기를 기반으로, 본 접근법은 확산 모델을 사용한 텍스트 기반 이미지-이미지(i2i) 변환을 통해 생성된 스타일화된 얼굴 이미지를 활용하여 이러한 모델을 미세 조정한다. 이 스타일화된 이미지는 렌더링된 메시의 스타일화 목표로 사용된다. i2i 변환 과정에서 원치 않는 신원, 얼굴 정렬 또는 표정의 변화를 방지하기 위해, 본 연구에서는 소스 이미지의 얼굴 속성을 명시적으로 보존하는 스타일화 방법을 제안한다. 이미지 스타일화 과정에서 이러한 중요한 속성을 유지함으로써, 제안된 접근법은 이미지 기반 훈련을 통해 3DMM 매개변수 공간 전반에 걸쳐 일관된 3D 스타일 전이를 보장한다. 훈련이 완료되면, StyleMM은 형태, 표정 및 텍스처 매개변수를 명시적으로 제어할 수 있는 스타일화된 얼굴 메시의 순방향 생성을 가능하게 하며, 일관된 정점 연결성과 애니메이션 가능성을 가진 메시를 생성한다. 정량적 및 정성적 평가를 통해, 본 접근법이 신원 수준의 얼굴 다양성과 스타일화 능력 측면에서 최신 기술을 능가함을 입증한다. 코드와 비디오는 [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page)에서 확인할 수 있다.
English
We introduce StyleMM, a novel framework that can construct a stylized 3D
Morphable Model (3DMM) based on user-defined text descriptions specifying a
target style. Building upon a pre-trained mesh deformation network and a
texture generator for original 3DMM-based realistic human faces, our approach
fine-tunes these models using stylized facial images generated via text-guided
image-to-image (i2i) translation with a diffusion model, which serve as
stylization targets for the rendered mesh. To prevent undesired changes in
identity, facial alignment, or expressions during i2i translation, we introduce
a stylization method that explicitly preserves the facial attributes of the
source image. By maintaining these critical attributes during image
stylization, the proposed approach ensures consistent 3D style transfer across
the 3DMM parameter space through image-based training. Once trained, StyleMM
enables feed-forward generation of stylized face meshes with explicit control
over shape, expression, and texture parameters, producing meshes with
consistent vertex connectivity and animatability. Quantitative and qualitative
evaluations demonstrate that our approach outperforms state-of-the-art methods
in terms of identity-level facial diversity and stylization capability. The
code and videos are available at
[kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).