Distilación de Mapas de Flujo Sin Datos
Flow Map Distillation Without Data
November 24, 2025
Autores: Shangyuan Tong, Nanye Ma, Saining Xie, Tommi Jaakkola
cs.AI
Resumen
Los modelos de flujo más avanzados logran una calidad notable, pero requieren un muestreo lento e iterativo. Para acelerar este proceso, se pueden destilar mapas de flujo a partir de modelos maestros preentrenados, un procedimiento que convencionalmente requiere muestrear de un conjunto de datos externo. Sostenemos que esta dependencia de los datos introduce un riesgo fundamental de Desajuste Maestro-Datos, ya que un conjunto de datos estático puede proporcionar una representación incompleta o incluso desalineada de las capacidades generativas completas del maestro. Esto nos lleva a cuestionar si esta dependencia de los datos es realmente necesaria para una destilación exitosa de mapas de flujo. En este trabajo, exploramos una alternativa libre de datos que muestrea únicamente de la distribución previa, una distribución que, por construcción, el maestro garantiza seguir, evitando así por completo el riesgo de desajuste. Para demostrar la viabilidad práctica de esta filosofía, introducimos un marco de trabajo fundamentado que aprende a predecir la trayectoria de muestreo del maestro mientras corrige activamente sus propios errores acumulativos para garantizar una alta fidelidad. Nuestro enfoque supera a todas las alternativas basadas en datos y establece un nuevo estado del arte por un margen significativo. Específicamente, al destilar a partir de SiT-XL/2+REPA, nuestro método alcanza un FID impresionante de 1.45 en ImageNet 256x256 y de 1.49 en ImageNet 512x512, ambos con solo 1 paso de muestreo. Esperamos que nuestro trabajo establezca un paradigma más robusto para acelerar modelos generativos y motive la adopción más amplia de la destilación de mapas de flujo sin datos.
English
State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.