ChatPaper.aiChatPaper

Flujo de Pocos Pasos para Generación 3D mediante Distilación de Transporte de Datos Marginales

Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

September 4, 2025
Autores: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI

Resumen

Los modelos de generación 3D basados en flujo suelen requerir docenas de pasos de muestreo durante la inferencia. Aunque los métodos de destilación de pocos pasos, particularmente los Modelos de Consistencia (CMs), han logrado avances significativos en la aceleración de modelos de difusión 2D, siguen siendo poco explorados para tareas de generación 3D más complejas. En este estudio, proponemos un marco novedoso, MDT-dist, para la destilación de flujo 3D de pocos pasos. Nuestro enfoque se basa en un objetivo principal: destilar el modelo preentrenado para aprender el Transporte de Datos Marginales. Aprender directamente este objetivo requiere integrar los campos de velocidad, pero esta integral es intratable de implementar. Por lo tanto, proponemos dos objetivos optimizables, Coincidencia de Velocidad (VM) y Destilación de Velocidad (VD), para convertir de manera equivalente el objetivo de optimización del nivel de transporte al nivel de velocidad y al nivel de distribución, respectivamente. La Coincidencia de Velocidad (VM) aprende a emparejar de manera estable los campos de velocidad entre el estudiante y el profesor, pero inevitablemente proporciona estimaciones de gradiente sesgadas. La Destilación de Velocidad (VD) mejora aún más el proceso de optimización aprovechando los campos de velocidad aprendidos para realizar la destilación de densidad de probabilidad. Al evaluar en el marco pionero de generación 3D TRELLIS, nuestro método reduce los pasos de muestreo de cada transformador de flujo de 25 a 1 o 2, logrando una latencia de 0.68s (1 paso x 2) y 0.94s (2 pasos x 2) con una aceleración de 9.0x y 6.5x en A800, mientras se preserva una alta fidelidad visual y geométrica. Experimentos extensivos demuestran que nuestro método supera significativamente los métodos de destilación CM existentes y permite que TRELLIS logre un rendimiento superior en la generación 3D de pocos pasos.
English
Flow-based 3D generation models typically require dozens of sampling steps during inference. Though few-step distillation methods, particularly Consistency Models (CMs), have achieved substantial advancements in accelerating 2D diffusion models, they remain under-explored for more complex 3D generation tasks. In this study, we propose a novel framework, MDT-dist, for few-step 3D flow distillation. Our approach is built upon a primary objective: distilling the pretrained model to learn the Marginal-Data Transport. Directly learning this objective needs to integrate the velocity fields, while this integral is intractable to be implemented. Therefore, we propose two optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD), to equivalently convert the optimization target from the transport level to the velocity and the distribution level respectively. Velocity Matching (VM) learns to stably match the velocity fields between the student and the teacher, but inevitably provides biased gradient estimates. Velocity Distillation (VD) further enhances the optimization process by leveraging the learned velocity fields to perform probability density distillation. When evaluated on the pioneer 3D generation framework TRELLIS, our method reduces sampling steps of each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s (2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high visual and geometric fidelity. Extensive experiments demonstrate that our method significantly outperforms existing CM distillation methods, and enables TRELLIS to achieve superior performance in few-step 3D generation.
PDF81September 5, 2025