ChatPaper.aiChatPaper

Overgangsmodellen: Een Herbezinning op het Generatieve Leerdoel

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
Auteurs: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

Samenvatting

Een fundamenteel dilemma in generatieve modellering blijft bestaan: iteratieve diffusiemodellen bereiken uitstekende nauwkeurigheid, maar tegen aanzienlijke rekenkosten, terwijl efficiënte alternatieven met weinig stappen beperkt worden door een harde kwaliteitsgrens. Dit conflict tussen generatiestappen en uitvoerkwaliteit ontstaat door beperkende trainingsdoelstellingen die uitsluitend focussen op ofwel infinitesimale dynamica (PF-ODEs) ofwel directe eindpuntvoorspelling. Wij pakken deze uitdaging aan door een exacte, continue-tijdsdynamicavergelijking te introduceren die analytisch staatsovergangen definieert over elk eindig tijdsinterval. Dit leidt tot een nieuw generatief paradigma, Transition Models (TiM), dat zich aanpast aan willekeurige-stapsovergangen en naadloos het generatieve traject doorloopt van enkele sprongen tot fijnmazige verfijning met meer stappen. Ondanks slechts 865M parameters te hebben, bereikt TiM state-of-the-art prestaties en overtreft het toonaangevende modellen zoals SD3.5 (8B parameters) en FLUX.1 (12B parameters) over alle geëvalueerde stap aantallen. Belangrijk is dat TiM, in tegenstelling tot eerdere generatoren met weinig stappen, een monotone kwaliteitsverbetering laat zien naarmate het samplingbudget toeneemt. Bovendien levert TiM, bij gebruik van onze native-resolutiestrategie, uitzonderlijke nauwkeurigheid bij resoluties tot 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF283September 5, 2025