ChatPaper.aiChatPaper

Modèles de Transition : Repenser l'Objectif d'Apprentissage Générative

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
papers.authors: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

papers.abstract

Un dilemme fondamental persiste dans la modélisation générative : les modèles de diffusion itérative atteignent une fidélité exceptionnelle, mais à un coût computationnel significatif, tandis que les alternatives efficaces en quelques étapes sont limitées par un plafond de qualité difficile à dépasser. Ce conflit entre le nombre d'étapes de génération et la qualité des résultats découle d'objectifs d'entraînement restrictifs qui se concentrent exclusivement soit sur les dynamiques infinitésimales (PF-ODEs), soit sur la prédiction directe des points finaux. Nous relevons ce défi en introduisant une équation dynamique exacte en temps continu qui définit analytiquement les transitions d'état sur tout intervalle de temps fini. Cela conduit à un nouveau paradigme génératif, les Modèles de Transition (TiM), qui s'adaptent à des transitions arbitraires, parcourant de manière fluide la trajectoire générative, des sauts uniques au raffinement granulaire avec plus d'étapes. Malgré ses 865 millions de paramètres seulement, TiM atteint des performances de pointe, surpassant des modèles leaders tels que SD3.5 (8 milliards de paramètres) et FLUX.1 (12 milliards de paramètres) pour tous les nombres d'étapes évalués. Fait important, contrairement aux générateurs en quelques étapes précédents, TiM démontre une amélioration monotone de la qualité à mesure que le budget d'échantillonnage augmente. De plus, en utilisant notre stratégie de résolution native, TiM offre une fidélité exceptionnelle à des résolutions allant jusqu'à 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF142September 5, 2025