Flusso a Pochi Passi per la Generazione 3D tramite Distillazione del Trasporto di Dati Marginali
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
September 4, 2025
Autori: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI
Abstract
I modelli di generazione 3D basati su flussi richiedono tipicamente dozzine di passaggi di campionamento durante l'inferenza. Sebbene i metodi di distillazione a pochi passaggi, in particolare i Modelli di Consistenza (CMs), abbiano ottenuto progressi significativi nell'accelerazione dei modelli di diffusione 2D, rimangono poco esplorati per le più complesse attività di generazione 3D. In questo studio, proponiamo un nuovo framework, MDT-dist, per la distillazione di flussi 3D a pochi passaggi. Il nostro approccio si basa su un obiettivo principale: distillare il modello pre-addestrato per apprendere il Trasporto Marginali-Dati. Apprendere direttamente questo obiettivo richiede l'integrazione dei campi di velocità, ma questo integrale è intrattabile da implementare. Pertanto, proponiamo due obiettivi ottimizzabili, Abbinamento della Velocità (VM) e Distillazione della Velocità (VD), per convertire equivalentemente il target di ottimizzazione dal livello di trasporto rispettivamente alla velocità e al livello di distribuzione. L'Abbinamento della Velocità (VM) apprende a stabilmente abbinare i campi di velocità tra lo studente e il docente, ma fornisce inevitabilmente stime di gradiente distorte. La Distillazione della Velocità (VD) migliora ulteriormente il processo di ottimizzazione sfruttando i campi di velocità appresi per eseguire la distillazione della densità di probabilità. Quando valutato sul pionieristico framework di generazione 3D TRELLIS, il nostro metodo riduce i passaggi di campionamento di ogni trasformatore di flusso da 25 a 1 o 2, raggiungendo una latenza di 0.68s (1 passaggio x 2) e 0.94s (2 passaggi x 2) con un'accelerazione di 9.0x e 6.5x su A800, preservando al contempo un'elevata fedeltà visiva e geometrica. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i metodi di distillazione CM esistenti e consente a TRELLIS di ottenere prestazioni superiori nella generazione 3D a pochi passaggi.
English
Flow-based 3D generation models typically require dozens of sampling steps
during inference. Though few-step distillation methods, particularly
Consistency Models (CMs), have achieved substantial advancements in
accelerating 2D diffusion models, they remain under-explored for more complex
3D generation tasks. In this study, we propose a novel framework, MDT-dist, for
few-step 3D flow distillation. Our approach is built upon a primary objective:
distilling the pretrained model to learn the Marginal-Data Transport. Directly
learning this objective needs to integrate the velocity fields, while this
integral is intractable to be implemented. Therefore, we propose two
optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD),
to equivalently convert the optimization target from the transport level to the
velocity and the distribution level respectively. Velocity Matching (VM) learns
to stably match the velocity fields between the student and the teacher, but
inevitably provides biased gradient estimates. Velocity Distillation (VD)
further enhances the optimization process by leveraging the learned velocity
fields to perform probability density distillation. When evaluated on the
pioneer 3D generation framework TRELLIS, our method reduces sampling steps of
each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s
(2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high
visual and geometric fidelity. Extensive experiments demonstrate that our
method significantly outperforms existing CM distillation methods, and enables
TRELLIS to achieve superior performance in few-step 3D generation.