ArcFlow : Libérer la génération texte-image en 2 étapes via une distillation de flux non linéaire de haute précision
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation
February 9, 2026
papers.authors: Zihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu
cs.AI
papers.abstract
Les modèles de diffusion ont atteint une qualité de génération remarquable, mais ils souffrent d'un coût d'inférence élevé en raison de leur dépendance à de multiples étapes de débruîtage séquentielles, ce qui motive les récents efforts pour distiller ce processus d'inférence en un régime à faible nombre d'étapes. Cependant, les méthodes de distillation existantes approximent généralement la trajectoire de l'enseignant en utilisant des raccourcis linéaires, ce qui rend difficile l'alignement avec ses directions tangentes en constante évolution, les vitesses variant au fil des pas de temps, conduisant ainsi à une dégradation de la qualité. Pour remédier à cette limitation, nous proposons ArcFlow, un cadre de distillation à faible nombre d'étapes qui emploie explicitement des trajectoires d'écoulement non linéaires pour approximer les trajectoires pré-entraînées de l'enseignant. Concrètement, ArcFlow paramétrise le champ de vitesse sous-jacent à la trajectoire d'inférence comme un mélange de processus de momentum continus. Cela permet à ArcFlow de capturer l'évolution de la vitesse et d'extrapoler des vitesses cohérentes pour former une trajectoire non linéaire continue au sein de chaque étape de débruîtage. Fait important, cette paramétrisation admet une intégration analytique de cette trajectoire non linéaire, ce qui contourne les erreurs de discrétisation numérique et aboutit à une approximation de haute précision de la trajectoire de l'enseignant. Pour entraîner cette paramétrisation en un générateur à faible nombre d'étapes, nous implémentons ArcFlow via une distillation de trajectoire sur des modèles enseignants pré-entraînés en utilisant des adaptateurs légers. Cette stratégie assure une convergence rapide et stable tout en préservant la diversité et la qualité génératives. Construit sur des modèles à grande échelle (Qwen-Image-20B et FLUX.1-dev), ArcFlow n'effectue qu'un réglage fin sur moins de 5 % des paramètres originaux et atteint une accélération de 40x avec seulement 2 évaluations de fonction de bruit (NFE) par rapport aux enseignants multi-étapes originaux, sans dégradation significative de la qualité. Les expériences sur des benchmarks montrent l'efficacité d'ArcFlow à la fois qualitativement et quantitativement.
English
Diffusion models have achieved remarkable generation quality, but they suffer from significant inference cost due to their reliance on multiple sequential denoising steps, motivating recent efforts to distill this inference process into a few-step regime. However, existing distillation methods typically approximate the teacher trajectory by using linear shortcuts, which makes it difficult to match its constantly changing tangent directions as velocities evolve across timesteps, thereby leading to quality degradation. To address this limitation, we propose ArcFlow, a few-step distillation framework that explicitly employs non-linear flow trajectories to approximate pre-trained teacher trajectories. Concretely, ArcFlow parameterizes the velocity field underlying the inference trajectory as a mixture of continuous momentum processes. This enables ArcFlow to capture velocity evolution and extrapolate coherent velocities to form a continuous non-linear trajectory within each denoising step. Importantly, this parameterization admits an analytical integration of this non-linear trajectory, which circumvents numerical discretization errors and results in high-precision approximation of the teacher trajectory. To train this parameterization into a few-step generator, we implement ArcFlow via trajectory distillation on pre-trained teacher models using lightweight adapters. This strategy ensures fast, stable convergence while preserving generative diversity and quality. Built on large-scale models (Qwen-Image-20B and FLUX.1-dev), ArcFlow only fine-tunes on less than 5% of original parameters and achieves a 40x speedup with 2 NFEs over the original multi-step teachers without significant quality degradation. Experiments on benchmarks show the effectiveness of ArcFlow both qualitatively and quantitatively.