ArcFlow: Liberando la generación de imágenes a partir de texto en 2 pasos mediante destilación de flujo no lineal de alta precisión
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation
February 9, 2026
Autores: Zihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu
cs.AI
Resumen
Los modelos de difusión han logrado una calidad de generación notable, pero sufren de un costo de inferencia significativo debido a su dependencia de múltiples pasos secuenciales de eliminación de ruido, lo que motiva los esfuerzos recientes para destilar este proceso de inferencia en un régimen de pocos pasos. Sin embargo, los métodos de destilación existentes típicamente aproximan la trayectoria del profesor utilizando atajos lineales, lo que dificulta igualar sus direcciones tangentes en constante cambio a medida que las velocidades evolucionan a lo largo de los intervalos de tiempo, conduciendo así a una degradación de la calidad. Para abordar esta limitación, proponemos ArcFlow, un marco de destilación de pocos pasos que emplea explícitamente trayectorias de flujo no lineales para aproximar las trayectorias preentrenadas del profesor. Concretamente, ArcFlow parametriza el campo de velocidad subyacente a la trayectoria de inferencia como una mezcla de procesos de momento continuos. Esto permite a ArcFlow capturar la evolución de la velocidad y extrapolar velocidades coherentes para formar una trayectoria no lineal continua dentro de cada paso de eliminación de ruido. Es importante destacar que esta parametrización admite una integración analítica de esta trayectoria no lineal, lo que evita errores de discretización numérica y resulta en una aproximación de alta precisión de la trayectoria del profesor. Para entrenar esta parametrización en un generador de pocos pasos, implementamos ArcFlow mediante destilación de trayectoria en modelos profesores preentrenados utilizando adaptadores ligeros. Esta estrategia garantiza una convergencia rápida y estable mientras preserva la diversidad y calidad generativas. Basado en modelos a gran escala (Qwen-Image-20B y FLUX.1-dev), ArcFlow solo ajusta finamente menos del 5% de los parámetros originales y logra una aceleración de 40x con solo 2 Evaluaciones de Función Neuronal (NFEs) sobre los profesores originales de múltiples pasos, sin una degradación significativa de la calidad. Los experimentos en puntos de referencia muestran la efectividad de ArcFlow tanto cualitativa como cuantitativamente.
English
Diffusion models have achieved remarkable generation quality, but they suffer from significant inference cost due to their reliance on multiple sequential denoising steps, motivating recent efforts to distill this inference process into a few-step regime. However, existing distillation methods typically approximate the teacher trajectory by using linear shortcuts, which makes it difficult to match its constantly changing tangent directions as velocities evolve across timesteps, thereby leading to quality degradation. To address this limitation, we propose ArcFlow, a few-step distillation framework that explicitly employs non-linear flow trajectories to approximate pre-trained teacher trajectories. Concretely, ArcFlow parameterizes the velocity field underlying the inference trajectory as a mixture of continuous momentum processes. This enables ArcFlow to capture velocity evolution and extrapolate coherent velocities to form a continuous non-linear trajectory within each denoising step. Importantly, this parameterization admits an analytical integration of this non-linear trajectory, which circumvents numerical discretization errors and results in high-precision approximation of the teacher trajectory. To train this parameterization into a few-step generator, we implement ArcFlow via trajectory distillation on pre-trained teacher models using lightweight adapters. This strategy ensures fast, stable convergence while preserving generative diversity and quality. Built on large-scale models (Qwen-Image-20B and FLUX.1-dev), ArcFlow only fine-tunes on less than 5% of original parameters and achieves a 40x speedup with 2 NFEs over the original multi-step teachers without significant quality degradation. Experiments on benchmarks show the effectiveness of ArcFlow both qualitatively and quantitatively.