ChatPaper.aiChatPaper

ArcFlow:高精度非線形フロー蒸留による2段階テキスト画像生成の解放

ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

February 9, 2026
著者: Zihan Yang, Shuyuan Tu, Licheng Zhang, Qi Dai, Yu-Gang Jiang, Zuxuan Wu
cs.AI

要旨

拡散モデルは優れた生成品質を実現しているが、複数の逐次的なノイズ除去ステップに依存するため推論コストが高く、この推論プロセスを少数ステップに蒸留する近年の取り組みが進められている。しかし既存の蒸留手法では、教師軌道を線形ショートカットで近似することが一般的であり、タイムステップ間で速度が進化する際に接線方向が絶えず変化する教師軌道を正確に模倣することが困難で、品質劣化を招く。この課題を解決するため、我々は非線形フロー軌道を明示的に用いて事前学習済み教師軌道を近似する少数ステップ蒸留フレームワーク「ArcFlow」を提案する。具体的には、ArcFlowは推論軌道の基盤となる速度場を連続的な運動量プロセスの混合としてパラメータ化する。これにより、ArcFlowは速度の進化を捉え、コヒーレントな速度を外挿して各ノイズ除去ステップ内で連続的な非線形軌道を形成できる。重要な点は、このパラメータ化により非線形軌道の解析的積分が可能となり、数値的な離散化誤差を回避して教師軌道の高精度近似を実現することである。このパラメータ化を少数ステップ生成器として学習させるため、軽量アダプタを用いた事前学習済み教師モデルに対する軌道蒸留によりArcFlowを実装する。この戦略により、生成の多様性と品質を維持しつつ、高速かつ安定した収束を保証する。大規模モデル(Qwen-Image-20BおよびFLUX.1-dev)上に構築されたArcFlowは、元のパラメータの5%未満のみをファインチューニングし、元の多段階教師モデルに対して2回の関数評価で40倍の高速化を実現しつつ、品質の大幅な劣化を抑えている。ベンチマーク実験により、ArcFlowの有効性が定性的・定量的に実証された。
English
Diffusion models have achieved remarkable generation quality, but they suffer from significant inference cost due to their reliance on multiple sequential denoising steps, motivating recent efforts to distill this inference process into a few-step regime. However, existing distillation methods typically approximate the teacher trajectory by using linear shortcuts, which makes it difficult to match its constantly changing tangent directions as velocities evolve across timesteps, thereby leading to quality degradation. To address this limitation, we propose ArcFlow, a few-step distillation framework that explicitly employs non-linear flow trajectories to approximate pre-trained teacher trajectories. Concretely, ArcFlow parameterizes the velocity field underlying the inference trajectory as a mixture of continuous momentum processes. This enables ArcFlow to capture velocity evolution and extrapolate coherent velocities to form a continuous non-linear trajectory within each denoising step. Importantly, this parameterization admits an analytical integration of this non-linear trajectory, which circumvents numerical discretization errors and results in high-precision approximation of the teacher trajectory. To train this parameterization into a few-step generator, we implement ArcFlow via trajectory distillation on pre-trained teacher models using lightweight adapters. This strategy ensures fast, stable convergence while preserving generative diversity and quality. Built on large-scale models (Qwen-Image-20B and FLUX.1-dev), ArcFlow only fine-tunes on less than 5% of original parameters and achieves a 40x speedup with 2 NFEs over the original multi-step teachers without significant quality degradation. Experiments on benchmarks show the effectiveness of ArcFlow both qualitatively and quantitatively.
PDF31February 13, 2026