Distillation de Cartes de Flux Sans Données
Flow Map Distillation Without Data
November 24, 2025
papers.authors: Shangyuan Tong, Nanye Ma, Saining Xie, Tommi Jaakkola
cs.AI
papers.abstract
Les modèles de flux les plus avancés atteignent une qualité remarquable mais nécessitent un échantillonnage itératif et lent. Pour accélérer ce processus, des applications de flux peuvent être distillées à partir de modèles enseignants pré-entraînés, une procédure qui nécessite conventionnellement un échantillonnage à partir d'un jeu de données externe. Nous soutenons que cette dépendance aux données introduit un risque fondamental de *Mismatch Enseignant-Données*, car un jeu de données statique peut fournir une représentation incomplète, voire inadaptée, des capacités génératives complètes de l'enseignant. Cela nous amène à nous demander si cette dépendance aux données est véritablement nécessaire pour une distillation réussie des applications de flux. Dans ce travail, nous explorons une alternative sans données qui échantillonne uniquement à partir de la distribution a priori, une distribution que l'enseignant suit nécessairement par construction, évitant ainsi complètement le risque de mismatch. Pour démontrer la viabilité pratique de cette philosophie, nous introduisons un cadre méthodologique qui apprend à prédire le chemin d'échantillonnage de l'enseignant tout en corrigeant activement ses propres erreurs cumulatives pour garantir une haute fidélité. Notre approche surpasse toutes les contreparties basées sur les données et établit un nouvel état de l'art par une marge significative. Plus précisément, en distillant à partir de SiT-XL/2+REPA, notre méthode atteint un FID impressionnant de 1,45 sur ImageNet 256x256 et de 1,49 sur ImageNet 512x512, les deux avec seulement 1 étape d'échantillonnage. Nous espérons que notre travail établit un paradigme plus robuste pour l'accélération des modèles génératifs et motive l'adoption plus large de la distillation des applications de flux sans données.
English
State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.