ArcFlow: 고정밀 비선형 흐름 증류를 통한 2단계 텍스트-이미지 생성 기술
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation
February 9, 2026
저자: Zihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu
cs.AI
초록
확산 모델은 뛰어난 생성 품질을 달성했지만, 다수의 순차적 노이즈 제거 단계에 의존하기 때문에 상당한 추론 비용이 발생하며, 이로 인해 추론 과정을 소수 단위 체제로 증류하려는 최근의 노력이 촉진되고 있습니다. 그러나 기존 증류 방법들은 일반적으로 선형 단축 경로를 사용하여 교사 궤적을 근사하는데, 이는 시간 단계에 따라 속도가 진화함에 따라 끊임없이 변화하는 교사 궤적의 접선 방향을 일치시키기 어렵게 만들어 품질 저하를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 사전 학습된 교사 궤적을 근사하기 위해 명시적으로 비선형 흐름 궤적을 활용하는 소수 단계 증류 프레임워크인 ArcFlow를 제안합니다. 구체적으로 ArcFlow는 추론 궤적의 기저에 있는 속도장을 연속 운동량 프로세스의 혼합으로 매개변수화합니다. 이를 통해 ArcFlow는 속도 진화를 포착하고 일관된 속도를 외삽하여 각 노이즈 제거 단계 내에서 연속적인 비선형 궤적을 형성할 수 있습니다. 중요한 것은, 이 매개변수화를 통해 비선형 궤적의 해석적 적분이 가능해져 수치 이산화 오류를 회피하고 교사 궤적의 고정밀 근사가 이루어집니다. 이 매개변수화를 소수 단계 생성기로 학습시키기 위해, 우리는 경량 어댑터를 사용한 사전 학습 교사 모델에 대한 궤적 증류를 통해 ArcFlow를 구현합니다. 이 전략은 생성 다양성과 품질을 보존하면서 빠르고 안정적인 수렴을 보장합니다. 대규모 모델(Qwen-Image-20B 및 FLUX.1-dev)을 기반으로 구축된 ArcFlow는 원본 매개변수의 5% 미만만을 미세 조정하며, 원본 다단계 교사 대비 2회의 NFE로 40배의 속도 향상을 달성함과 동시도 품질 저하가 크지 않습니다. 벤치마크 실험은 ArcFlow의 정성적, 정량적 효과성을 모두 보여줍니다.
English
Diffusion models have achieved remarkable generation quality, but they suffer from significant inference cost due to their reliance on multiple sequential denoising steps, motivating recent efforts to distill this inference process into a few-step regime. However, existing distillation methods typically approximate the teacher trajectory by using linear shortcuts, which makes it difficult to match its constantly changing tangent directions as velocities evolve across timesteps, thereby leading to quality degradation. To address this limitation, we propose ArcFlow, a few-step distillation framework that explicitly employs non-linear flow trajectories to approximate pre-trained teacher trajectories. Concretely, ArcFlow parameterizes the velocity field underlying the inference trajectory as a mixture of continuous momentum processes. This enables ArcFlow to capture velocity evolution and extrapolate coherent velocities to form a continuous non-linear trajectory within each denoising step. Importantly, this parameterization admits an analytical integration of this non-linear trajectory, which circumvents numerical discretization errors and results in high-precision approximation of the teacher trajectory. To train this parameterization into a few-step generator, we implement ArcFlow via trajectory distillation on pre-trained teacher models using lightweight adapters. This strategy ensures fast, stable convergence while preserving generative diversity and quality. Built on large-scale models (Qwen-Image-20B and FLUX.1-dev), ArcFlow only fine-tunes on less than 5% of original parameters and achieves a 40x speedup with 2 NFEs over the original multi-step teachers without significant quality degradation. Experiments on benchmarks show the effectiveness of ArcFlow both qualitatively and quantitatively.