ChatPaper.aiChatPaper

Flusskarten-Distillation ohne Daten

Flow Map Distillation Without Data

November 24, 2025
papers.authors: Shangyuan Tong, Nanye Ma, Saining Xie, Tommi Jaakkola
cs.AI

papers.abstract

Aktuelle Flow-Modelle erreichen eine beeindruckende Qualität, erfordern jedoch langsames, iteratives Sampling. Um dies zu beschleunigen, können Flow Maps von vortrainierten Lehrermodellen destilliert werden – ein Verfahren, das konventionell das Sampling aus einem externen Datensatz erfordert. Wir argumentieren, dass diese Datenabhängigkeit ein grundsätzliches Risiko eines Teacher-Data-Mismatchs birgt, da ein statischer Datensatz möglicherweise eine unvollständige oder sogar fehlausgerichtete Repräsentation der vollen generativen Fähigkeiten des Lehrers liefert. Dies veranlasst uns zu der Frage, ob diese Abhängigkeit von Daten für eine erfolgreiche Flow-Map-Destillation tatsächlich notwendig ist. In dieser Arbeit untersuchen wir einen datenfreien Ansatz, der ausschließlich aus der Prior-Verteilung sampelt – einer Verteilung, der der Lehrer durch seine Konstruktion garantiert folgt – und so das Mismatch-Risiko vollständig umgeht. Um die praktische Umsetzbarkeit dieses Prinzips zu demonstrieren, führen wir einen methodischen Rahmen ein, der lernt, den Sampling-Pfad des Lehrers vorherzusagen und dabei aktiv seine eigenen sich aufschaukelnden Fehler korrigiert, um eine hohe Wiedergabetreue zu gewährleisten. Unser Ansatz übertrifft alle datenbasierten Gegenstücke und setzt mit deutlichem Abstand einen neuen Maßstab. Konkret erreicht unsere Methode beim Destillieren von SiT-XL/2+REPA einen beeindruckenden FID von 1,45 auf ImageNet 256x256 und 1,49 auf ImageNet 512x512, jeweils mit nur einem Sampling-Schritt. Wir hoffen, dass unsere Arbeit ein robusteres Paradigma für die Beschleunigung generativer Modelle etabliert und die breitere Anwendung von Flow-Map-Destillation ohne Daten befördert.
English
State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.
PDF52February 7, 2026