Destilação de Mapas de Fluxo Sem Dados

Resumo

Os modelos de fluxo mais avançados alcançam qualidade notável, mas exigem uma amostragem iterativa e lenta. Para acelerar este processo, mapas de fluxo podem ser destilados de professores pré-treinados, um procedimento que convencionalmente requer a amostragem de um conjunto de dados externo. Argumentamos que esta dependência de dados introduz um risco fundamental de Incompatibilidade Professor-Dados, uma vez que um conjunto de dados estático pode fornecer uma representação incompleta ou mesmo desalinhada das capacidades generativas completas do professor. Isto leva-nos a questionar se esta dependência de dados é verdadeiramente necessária para uma destilação bem-sucedida de mapas de fluxo. Neste trabalho, exploramos uma alternativa livre de dados que amostra apenas a partir da distribuição anterior, uma distribuição que o professor, por construção, garante seguir, contornando assim completamente o risco de incompatibilidade. Para demonstrar a viabilidade prática desta filosofia, introduzimos um framework fundamentado que aprende a prever o caminho de amostragem do professor enquanto corrige ativamente os seus próprios erros compostos para garantir alta fidelidade. A nossa abordagem supera todas as contrapartes baseadas em dados e estabelece um novo estado da arte por uma margem significativa. Especificamente, ao destilar a partir do SiT-XL/2+REPA, o nosso método atinge um FID impressionante de 1.45 no ImageNet 256x256 e 1.49 no ImageNet 512x512, ambos com apenas 1 passo de amostragem. Esperamos que o nosso trabalho estabeleça um paradigma mais robusto para acelerar modelos generativos e motive a adoção mais ampla da destilação de mapas de fluxo sem dados.

English

State-of-the-art flow models achieve remarkable quality but require slow, iterative sampling. To accelerate this, flow maps can be distilled from pre-trained teachers, a procedure that conventionally requires sampling from an external dataset. We argue that this data-dependency introduces a fundamental risk of Teacher-Data Mismatch, as a static dataset may provide an incomplete or even misaligned representation of the teacher's full generative capabilities. This leads us to question whether this reliance on data is truly necessary for successful flow map distillation. In this work, we explore a data-free alternative that samples only from the prior distribution, a distribution the teacher is guaranteed to follow by construction, thereby circumventing the mismatch risk entirely. To demonstrate the practical viability of this philosophy, we introduce a principled framework that learns to predict the teacher's sampling path while actively correcting for its own compounding errors to ensure high fidelity. Our approach surpasses all data-based counterparts and establishes a new state-of-the-art by a significant margin. Specifically, distilling from SiT-XL/2+REPA, our method reaches an impressive FID of 1.45 on ImageNet 256x256, and 1.49 on ImageNet 512x512, both with only 1 sampling step. We hope our work establishes a more robust paradigm for accelerating generative models and motivates the broader adoption of flow map distillation without data.

Destilação de Mapas de Fluxo Sem Dados

Flow Map Distillation Without Data

Resumo

Support