Модели переходов: Переосмысление задачи генеративного обучения
Transition Models: Rethinking the Generative Learning Objective
September 4, 2025
Авторы: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI
Аннотация
Фундаментальная дилемма в генеративном моделировании сохраняется: итеративные диффузионные модели достигают выдающейся точности, но за счет значительных вычислительных затрат, в то время как эффективные альтернативы с малым количеством шагов ограничены жестким потолком качества. Этот конфликт между количеством шагов генерации и качеством выходных данных возникает из-за ограничительных целей обучения, которые сосредоточены исключительно либо на бесконечно малой динамике (PF-ODEs), либо на прямом предсказании конечной точки. Мы решаем эту проблему, вводя точное уравнение динамики в непрерывном времени, которое аналитически определяет переходы состояний на любом конечном временном интервале. Это приводит к новой генеративной парадигме — моделям переходов (Transition Models, TiM), которые адаптируются к переходам с произвольным количеством шагов, плавно перемещаясь по генеративной траектории от единичных скачков до детализированного уточнения с увеличением числа шагов. Несмотря на наличие всего 865 миллионов параметров, TiM демонстрирует передовые результаты, превосходя ведущие модели, такие как SD3.5 (8 миллиардов параметров) и FLUX.1 (12 миллиардов параметров), на всех оцененных количествах шагов. Важно отметить, что в отличие от предыдущих генераторов с малым количеством шагов, TiM показывает монотонное улучшение качества с увеличением бюджета сэмплирования. Кроме того, при использовании нашей стратегии нативного разрешения TiM обеспечивает исключительную точность на разрешениях до 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion
models achieve outstanding fidelity, but at a significant computational cost,
while efficient few-step alternatives are constrained by a hard quality
ceiling. This conflict between generation steps and output quality arises from
restrictive training objectives that focus exclusively on either infinitesimal
dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by
introducing an exact, continuous-time dynamics equation that analytically
defines state transitions across any finite time interval. This leads to a
novel generative paradigm, Transition Models (TiM), which adapt to
arbitrary-step transitions, seamlessly traversing the generative trajectory
from single leaps to fine-grained refinement with more steps. Despite having
only 865M parameters, TiM achieves state-of-the-art performance, surpassing
leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across
all evaluated step counts. Importantly, unlike previous few-step generators,
TiM demonstrates monotonic quality improvement as the sampling budget
increases. Additionally, when employing our native-resolution strategy, TiM
delivers exceptional fidelity at resolutions up to 4096x4096.