ChatPaper.aiChatPaper

Малошаговый процесс для 3D-генерации через дистилляцию транспорта маргинальных данных

Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

September 4, 2025
Авторы: Zanwei Zhou, Taoran Yi, Jiemin Fang, Chen Yang, Lingxi Xie, Xinggang Wang, Wei Shen, Qi Tian
cs.AI

Аннотация

Модели генерации 3D на основе потоков обычно требуют десятков шагов выборки во время вывода. Хотя методы дистилляции с малым количеством шагов, в частности Модели Согласованности (Consistency Models, CMs), достигли значительных успехов в ускорении 2D диффузионных моделей, они остаются малоизученными для более сложных задач генерации 3D. В данном исследовании мы предлагаем новый фреймворк, MDT-dist, для дистилляции 3D потоков с малым количеством шагов. Наш подход основан на основной цели: дистилляции предобученной модели для изучения Транспорта Маргинальных Данных (Marginal-Data Transport). Прямое изучение этой цели требует интегрирования полей скорости, однако этот интеграл трудно реализовать. Поэтому мы предлагаем две оптимизируемые цели: Сопоставление Скорости (Velocity Matching, VM) и Дистилляция Скорости (Velocity Distillation, VD), чтобы эквивалентно преобразовать цель оптимизации с уровня транспорта на уровень скорости и распределения соответственно. Сопоставление Скорости (VM) учится стабильно сопоставлять поля скорости между учеником и учителем, но неизбежно предоставляет смещенные оценки градиента. Дистилляция Скорости (VD) дополнительно улучшает процесс оптимизации, используя изученные поля скорости для выполнения дистилляции плотности вероятности. При оценке на пионерском фреймворке генерации 3D TRELLIS наш метод сокращает количество шагов выборки каждого трансформера потока с 25 до 1 или 2, достигая задержек 0.68с (1 шаг x 2) и 0.94с (2 шага x 2) с ускорением в 9.0x и 6.5x на A800, сохраняя при этом высокую визуальную и геометрическую точность. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит существующие методы дистилляции CMs и позволяет TRELLIS достичь превосходной производительности в генерации 3D с малым количеством шагов.
English
Flow-based 3D generation models typically require dozens of sampling steps during inference. Though few-step distillation methods, particularly Consistency Models (CMs), have achieved substantial advancements in accelerating 2D diffusion models, they remain under-explored for more complex 3D generation tasks. In this study, we propose a novel framework, MDT-dist, for few-step 3D flow distillation. Our approach is built upon a primary objective: distilling the pretrained model to learn the Marginal-Data Transport. Directly learning this objective needs to integrate the velocity fields, while this integral is intractable to be implemented. Therefore, we propose two optimizable objectives, Velocity Matching (VM) and Velocity Distillation (VD), to equivalently convert the optimization target from the transport level to the velocity and the distribution level respectively. Velocity Matching (VM) learns to stably match the velocity fields between the student and the teacher, but inevitably provides biased gradient estimates. Velocity Distillation (VD) further enhances the optimization process by leveraging the learned velocity fields to perform probability density distillation. When evaluated on the pioneer 3D generation framework TRELLIS, our method reduces sampling steps of each flow transformer from 25 to 1 or 2, achieving 0.68s (1 step x 2) and 0.94s (2 steps x 2) latency with 9.0x and 6.5x speedup on A800, while preserving high visual and geometric fidelity. Extensive experiments demonstrate that our method significantly outperforms existing CM distillation methods, and enables TRELLIS to achieve superior performance in few-step 3D generation.
PDF81September 5, 2025