遷移モデル:生成的学習目的の再考
Transition Models: Rethinking the Generative Learning Objective
September 4, 2025
著者: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI
要旨
生成モデリングにおける根本的なジレンマが続いている:反復的な拡散モデルは優れた忠実度を達成するが、多大な計算コストを伴い、一方で効率的な少数ステップの代替手法は厳しい品質の上限に制約されている。この生成ステップ数と出力品質の間の対立は、微小なダイナミクス(PF-ODE)または直接的なエンドポイント予測のいずれかにのみ焦点を当てた制限的な訓練目標から生じている。我々はこの課題に対処するため、任意の有限時間間隔における状態遷移を解析的に定義する正確な連続時間ダイナミクス方程式を導入する。これにより、任意ステップの遷移に適応し、単一の飛躍から細かな精緻化まで生成軌跡をシームレスに横断する新しい生成パラダイム、Transition Models(TiM)を提案する。TiMは865Mパラメータしか持たないにもかかわらず、SD3.5(8Bパラメータ)やFLUX.1(12Bパラメータ)などの主要モデルを全ての評価ステップ数で上回る最先端の性能を達成する。重要なことに、従来の少数ステップ生成器とは異なり、TiMはサンプリング予算が増加するにつれて品質が単調に向上することを示す。さらに、我々のネイティブ解像度戦略を採用すると、TiMは4096x4096までの解像度で卓越した忠実度を提供する。
English
A fundamental dilemma in generative modeling persists: iterative diffusion
models achieve outstanding fidelity, but at a significant computational cost,
while efficient few-step alternatives are constrained by a hard quality
ceiling. This conflict between generation steps and output quality arises from
restrictive training objectives that focus exclusively on either infinitesimal
dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by
introducing an exact, continuous-time dynamics equation that analytically
defines state transitions across any finite time interval. This leads to a
novel generative paradigm, Transition Models (TiM), which adapt to
arbitrary-step transitions, seamlessly traversing the generative trajectory
from single leaps to fine-grained refinement with more steps. Despite having
only 865M parameters, TiM achieves state-of-the-art performance, surpassing
leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across
all evaluated step counts. Importantly, unlike previous few-step generators,
TiM demonstrates monotonic quality improvement as the sampling budget
increases. Additionally, when employing our native-resolution strategy, TiM
delivers exceptional fidelity at resolutions up to 4096x4096.