Fluxo de Poucos Passos para Geração 3D via Distilação de Transporte de Dados Marginais
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
September 4, 2025
Autores: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI
Resumo
Modelos de geração 3D baseados em fluxo normalmente exigem dezenas de etapas de amostragem durante a inferência. Embora métodos de destilação em poucas etapas, particularmente os Modelos de Consistência (CMs), tenham alcançado avanços significativos na aceleração de modelos de difusão 2D, eles ainda são pouco explorados para tarefas mais complexas de geração 3D. Neste estudo, propomos uma nova estrutura, MDT-dist, para destilação de fluxo 3D em poucas etapas. Nossa abordagem é construída sobre um objetivo principal: destilar o modelo pré-treinado para aprender o Transporte de Dados Marginais. Aprender diretamente esse objetivo requer a integração dos campos de velocidade, enquanto essa integral é intratável de ser implementada. Portanto, propomos dois objetivos otimizáveis, Correspondência de Velocidade (VM) e Destilação de Velocidade (VD), para converter equivalentemente o alvo de otimização do nível de transporte para o nível de velocidade e de distribuição, respectivamente. A Correspondência de Velocidade (VM) aprende a corresponder de forma estável os campos de velocidade entre o aluno e o professor, mas inevitavelmente fornece estimativas de gradiente tendenciosas. A Destilação de Velocidade (VD) aprimora ainda mais o processo de otimização, aproveitando os campos de velocidade aprendidos para realizar a destilação de densidade de probabilidade. Quando avaliado no pioneiro framework de geração 3D TRELLIS, nosso método reduz as etapas de amostragem de cada transformador de fluxo de 25 para 1 ou 2, alcançando latências de 0,68s (1 etapa x 2) e 0,94s (2 etapas x 2) com acelerações de 9,0x e 6,5x no A800, enquanto mantém alta fidelidade visual e geométrica. Experimentos extensivos demonstram que nosso método supera significativamente os métodos de destilação CM existentes e permite que o TRELLIS alcance desempenho superior na geração 3D em poucas etapas.
English
Flow-based 3D generation models typically require dozens of sampling steps
during inference. Though few-step distillation methods, particularly
Consistency Models (CMs), have achieved substantial advancements in
accelerating 2D diffusion models, they remain under-explored for more complex
3D generation tasks. In this study, we propose a novel framework, MDT-dist, for
few-step 3D flow distillation. Our approach is built upon a primary objective:
distilling the pretrained model to learn the Marginal-Data Transport. Directly
learning this objective needs to integrate the velocity fields, while this
integral is intractable to be implemented. Therefore, we propose two
optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD),
to equivalently convert the optimization target from the transport level to the
velocity and the distribution level respectively. Velocity Matching (VM) learns
to stably match the velocity fields between the student and the teacher, but
inevitably provides biased gradient estimates. Velocity Distillation (VD)
further enhances the optimization process by leveraging the learned velocity
fields to perform probability density distillation. When evaluated on the
pioneer 3D generation framework TRELLIS, our method reduces sampling steps of
each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s
(2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high
visual and geometric fidelity. Extensive experiments demonstrate that our
method significantly outperforms existing CM distillation methods, and enables
TRELLIS to achieve superior performance in few-step 3D generation.