소수 단계 3D 생성을 위한 한계 데이터 전송 증류 기법
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
September 4, 2025
저자: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI
초록
플로우 기반 3D 생성 모델은 일반적으로 추론 과정에서 수십 번의 샘플링 단계를 필요로 합니다. 비록 Consistency Models (CMs)와 같은 소수 단계 증류 방법이 2D 확산 모델의 가속화에서 상당한 진전을 이루었지만, 더 복잡한 3D 생성 작업에서는 여전히 탐구가 부족한 상태입니다. 본 연구에서는 소수 단계 3D 플로우 증류를 위한 새로운 프레임워크인 MDT-dist를 제안합니다. 우리의 접근 방식은 사전 훈련된 모델을 Marginal-Data Transport를 학습하도록 증류하는 주요 목표를 기반으로 합니다. 이 목표를 직접 학습하려면 속도 필드를 통합해야 하지만, 이 적분은 구현하기 어렵습니다. 따라서 우리는 최적화 가능한 두 가지 목표인 Velocity Matching (VM)과 Velocity Distillation (VD)을 제안하여 최적화 대상을 각각 속도와 분포 수준으로 동등하게 변환합니다. Velocity Matching (VM)은 학생과 교사 모델 간의 속도 필드를 안정적으로 일치시키도록 학습하지만, 필연적으로 편향된 그래디언트 추정치를 제공합니다. Velocity Distillation (VD)은 학습된 속도 필드를 활용하여 확률 밀도 증류를 수행함으로써 최적화 과정을 더욱 강화합니다. 선구적인 3D 생성 프레임워크인 TRELLIS에서 평가한 결과, 우리의 방법은 각 플로우 트랜스포머의 샘플링 단계를 25에서 1 또는 2로 줄여, A800에서 0.68초(1단계 x 2)와 0.94초(2단계 x 2)의 지연 시간과 각각 9.0배 및 6.5배의 속도 향상을 달성하면서도 높은 시각적 및 기하학적 충실도를 유지합니다. 광범위한 실험을 통해 우리의 방법이 기존 CM 증류 방법을 크게 능가하며, TRELLIS가 소수 단계 3D 생성에서 우수한 성능을 달성할 수 있음을 입증했습니다.
English
Flow-based 3D generation models typically require dozens of sampling steps
during inference. Though few-step distillation methods, particularly
Consistency Models (CMs), have achieved substantial advancements in
accelerating 2D diffusion models, they remain under-explored for more complex
3D generation tasks. In this study, we propose a novel framework, MDT-dist, for
few-step 3D flow distillation. Our approach is built upon a primary objective:
distilling the pretrained model to learn the Marginal-Data Transport. Directly
learning this objective needs to integrate the velocity fields, while this
integral is intractable to be implemented. Therefore, we propose two
optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD),
to equivalently convert the optimization target from the transport level to the
velocity and the distribution level respectively. Velocity Matching (VM) learns
to stably match the velocity fields between the student and the teacher, but
inevitably provides biased gradient estimates. Velocity Distillation (VD)
further enhances the optimization process by leveraging the learned velocity
fields to perform probability density distillation. When evaluated on the
pioneer 3D generation framework TRELLIS, our method reduces sampling steps of
each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s
(2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high
visual and geometric fidelity. Extensive experiments demonstrate that our
method significantly outperforms existing CM distillation methods, and enables
TRELLIS to achieve superior performance in few-step 3D generation.