Modelos de Transición: Replanteando el Objetivo de Aprendizaje Generativo
Transition Models: Rethinking the Generative Learning Objective
September 4, 2025
Autores: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI
Resumen
Un dilema fundamental en el modelado generativo persiste: los modelos de difusión iterativa logran una fidelidad excepcional, pero a un costo computacional significativo, mientras que las alternativas eficientes de pocos pasos están limitadas por un techo de calidad difícil de superar. Este conflicto entre los pasos de generación y la calidad del resultado surge de objetivos de entrenamiento restrictivos que se centran exclusivamente en dinámicas infinitesimales (PF-ODEs) o en la predicción directa del punto final. Abordamos este desafío introduciendo una ecuación exacta de dinámica en tiempo continuo que define analíticamente las transiciones de estado en cualquier intervalo de tiempo finito. Esto conduce a un nuevo paradigma generativo, los Modelos de Transición (TiM), que se adaptan a transiciones de pasos arbitrarios, recorriendo sin problemas la trayectoria generativa desde saltos únicos hasta refinamientos detallados con más pasos. A pesar de tener solo 865M de parámetros, TiM logra un rendimiento de vanguardia, superando a modelos líderes como SD3.5 (8B parámetros) y FLUX.1 (12B parámetros) en todos los conteos de pasos evaluados. Es importante destacar que, a diferencia de los generadores de pocos pasos anteriores, TiM demuestra una mejora monótona en la calidad a medida que aumenta el presupuesto de muestreo. Además, al emplear nuestra estrategia de resolución nativa, TiM ofrece una fidelidad excepcional en resoluciones de hasta 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion
models achieve outstanding fidelity, but at a significant computational cost,
while efficient few-step alternatives are constrained by a hard quality
ceiling. This conflict between generation steps and output quality arises from
restrictive training objectives that focus exclusively on either infinitesimal
dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by
introducing an exact, continuous-time dynamics equation that analytically
defines state transitions across any finite time interval. This leads to a
novel generative paradigm, Transition Models (TiM), which adapt to
arbitrary-step transitions, seamlessly traversing the generative trajectory
from single leaps to fine-grained refinement with more steps. Despite having
only 865M parameters, TiM achieves state-of-the-art performance, surpassing
leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across
all evaluated step counts. Importantly, unlike previous few-step generators,
TiM demonstrates monotonic quality improvement as the sampling budget
increases. Additionally, when employing our native-resolution strategy, TiM
delivers exceptional fidelity at resolutions up to 4096x4096.