Wenige-Schritte-Fluss für 3D-Generierung durch Marginal-Daten-Transport-Destillation
Few-step Flow for 3D Generation via Marginal-Data Transport Distillation
September 4, 2025
papers.authors: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI
papers.abstract
Flow-basierte 3D-Generierungsmodelle erfordern typischerweise Dutzende von Sampling-Schritten während der Inferenz. Obwohl Few-Step-Distillationsmethoden, insbesondere Consistency Models (CMs), erhebliche Fortschritte bei der Beschleunigung von 2D-Diffusionsmodellen erzielt haben, bleiben sie für komplexere 3D-Generierungsaufgaben weitgehend unerforscht. In dieser Studie schlagen wir ein neuartiges Framework, MDT-dist, für die Few-Step-3D-Flow-Distillation vor. Unser Ansatz basiert auf einem primären Ziel: die Distillation des vortrainierten Modells, um den Marginal-Data-Transport zu erlernen. Das direkte Erlernen dieses Ziels erfordert die Integration der Geschwindigkeitsfelder, während dieses Integral jedoch schwer umsetzbar ist. Daher schlagen wir zwei optimierbare Ziele vor, Velocity Matching (VM) und Velocity Distillation (VD), um das Optimierungsziel äquivalent von der Transportebene auf die Geschwindigkeits- bzw. die Verteilungsebene umzuwandeln. Velocity Matching (VM) lernt, die Geschwindigkeitsfelder zwischen dem Schüler- und dem Lehrermodell stabil abzugleichen, liefert jedoch zwangsläufig verzerrte Gradientenschätzungen. Velocity Distillation (VD) verbessert den Optimierungsprozess weiter, indem es die gelernten Geschwindigkeitsfelder nutzt, um eine Wahrscheinlichkeitsdichte-Distillation durchzuführen. Bei der Evaluierung auf dem wegweisenden 3D-Generierungsframework TRELLIS reduziert unsere Methode die Sampling-Schritte jedes Flow-Transformers von 25 auf 1 oder 2 und erreicht eine Latenz von 0,68s (1 Schritt x 2) bzw. 0,94s (2 Schritte x 2) mit einer Beschleunigung um den Faktor 9,0x bzw. 6,5x auf der A800, während eine hohe visuelle und geometrische Treue erhalten bleibt. Umfangreiche Experimente zeigen, dass unsere Methode bestehende CM-Distillationsmethoden deutlich übertrifft und es TRELLIS ermöglicht, eine überlegene Leistung in der Few-Step-3D-Generierung zu erzielen.
English
Flow-based 3D generation models typically require dozens of sampling steps
during inference. Though few-step distillation methods, particularly
Consistency Models (CMs), have achieved substantial advancements in
accelerating 2D diffusion models, they remain under-explored for more complex
3D generation tasks. In this study, we propose a novel framework, MDT-dist, for
few-step 3D flow distillation. Our approach is built upon a primary objective:
distilling the pretrained model to learn the Marginal-Data Transport. Directly
learning this objective needs to integrate the velocity fields, while this
integral is intractable to be implemented. Therefore, we propose two
optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD),
to equivalently convert the optimization target from the transport level to the
velocity and the distribution level respectively. Velocity Matching (VM) learns
to stably match the velocity fields between the student and the teacher, but
inevitably provides biased gradient estimates. Velocity Distillation (VD)
further enhances the optimization process by leveraging the learned velocity
fields to perform probability density distillation. When evaluated on the
pioneer 3D generation framework TRELLIS, our method reduces sampling steps of
each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s
(2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high
visual and geometric fidelity. Extensive experiments demonstrate that our
method significantly outperforms existing CM distillation methods, and enables
TRELLIS to achieve superior performance in few-step 3D generation.