Flow Map-distillatie zonder gegevens
Flow Map Distillation Without Data
November 24, 2025
Auteurs: Shangyuan Tong, Nanye Ma, Saining Xie, Tommi Jaakkola
cs.AI
Samenvatting
State-of-the-art stroommodellen bereiken een opmerkelijke kwaliteit, maar vereisen een trage, iteratieve sampling. Om dit te versnellen kunnen stroomkaarten worden gedistilleerd uit voorgetrainde teachers, een procedure die conventioneel het bemonsteren van een externe dataset vereist. Wij stellen dat deze data-afhankelijkheid een fundamenteel risico op Teacher-Data Mismatch met zich meebrengt, omdat een statische dataset een onvolledige of zelfs verkeerd uitgelijnde weergave kan bieden van de volledige generatieve capaciteiten van de teacher. Dit leidt ertoe dat we ons afvragen of deze afhankelijkheid van data werkelijk noodzakelijk is voor succesvolle stroomkaartdistillatie. In dit werk verkennen we een data-vrij alternatief dat enkel bemonstert vanuit de prior-verdeling, een verdeling die de teacher door zijn constructie gegarandeerd volgt, waardoor het mismatch-risico volledig wordt omzeild. Om de praktische haalbaarheid van deze filosofie aan te tonen, introduceren we een principieel framework dat leert om het samplingpad van de teacher te voorspellen, terwijl het actief zijn eigen cumulerende fouten corrigeert om een hoge kwaliteit te waarborgen. Onze aanpak overtreft alle op data gebaseerde tegenhangers en vestigt met een aanzienlijke marge een nieuwe state-of-the-art. Specifiek bereikt onze methode, bij distillatie vanuit SiT-XL/2+REPA, een indrukwekkende FID van 1.45 op ImageNet 256x256 en 1.49 op ImageNet 512x512, beide met slechts 1 samplingstap. Wij hopen dat ons werk een robuuster paradigma vestigt voor het versnellen van generatieve modellen en de bredere adoptie van stroomkaartdistillatie zonder data motiveert.
English
State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.