Distillazione di Mappe di Flusso Senza Dati
Flow Map Distillation Without Data
November 24, 2025
Autori: Shangyuan Tong, Nanye Ma, Saining Xie, Tommi Jaakkola
cs.AI
Abstract
I modelli di flusso all'avanguardia raggiungono una qualità notevole ma richiedono un campionamento iterativo e lento. Per accelerare questo processo, le mappe di flusso possono essere distillate da insegnanti pre-addestrati, una procedura che convenzionalmente richiede il campionamento da un dataset esterno. Sosteniamo che questa dipendenza dai dati introduca un rischio fondamentale di Disallineamento Insegnante-Dati, poiché un dataset statico può fornire una rappresentazione incompleta o addirittura disallineata delle piene capacità generative dell'insegnante. Questo ci porta a chiederci se questa dipendenza dai dati sia veramente necessaria per una distillazione di successo delle mappe di flusso. In questo lavoro, esploriamo un'alternativa senza dati che campiona esclusivamente dalla distribuzione a priori, una distribuzione che l'insegnante segue per costruzione in modo garantito, evitando così completamente il rischio di disallineamento. Per dimostrare la fattibilità pratica di questa filosofia, introduciamo un framework principiato che impara a prevedere il percorso di campionamento dell'insegnamento correggendo attivamente i propri errori cumulativi per garantire un'alta fedeltà. Il nostro approccio supera tutte le controparti basate su dati e stabilisce un nuovo stato dell'arte con un margine significativo. Nello specifico, distillando da SiT-XL/2+REPA, il nostro metodo raggiunge un FID impressionante di 1.45 su ImageNet 256x256 e di 1.49 su ImageNet 512x512, entrambi con un solo passo di campionamento. Speriamo che il nostro lavoro stabilisca un paradigma più robusto per accelerare i modelli generativi e motivi una più ampia adozione della distillazione delle mappe di flusso senza dati.
English
State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.