ChatPaper.aiChatPaper

Модели переходов: Переосмысление задачи генеративного обучения

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
Авторы: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

Аннотация

Фундаментальная дилемма в генеративном моделировании сохраняется: итеративные диффузионные модели достигают выдающейся точности, но за счет значительных вычислительных затрат, в то время как эффективные альтернативы с малым количеством шагов ограничены жестким потолком качества. Этот конфликт между количеством шагов генерации и качеством выходных данных возникает из-за ограничительных целей обучения, которые сосредоточены исключительно либо на бесконечно малой динамике (PF-ODEs), либо на прямом предсказании конечной точки. Мы решаем эту проблему, вводя точное уравнение динамики в непрерывном времени, которое аналитически определяет переходы состояний на любом конечном временном интервале. Это приводит к новой генеративной парадигме — моделям переходов (Transition Models, TiM), которые адаптируются к переходам с произвольным количеством шагов, плавно перемещаясь по генеративной траектории от единичных скачков до детализированного уточнения с увеличением числа шагов. Несмотря на наличие всего 865 миллионов параметров, TiM демонстрирует передовые результаты, превосходя ведущие модели, такие как SD3.5 (8 миллиардов параметров) и FLUX.1 (12 миллиардов параметров), на всех оцененных количествах шагов. Важно отметить, что в отличие от предыдущих генераторов с малым количеством шагов, TiM показывает монотонное улучшение качества с увеличением бюджета сэмплирования. Кроме того, при использовании нашей стратегии нативного разрешения TiM обеспечивает исключительную точность на разрешениях до 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF142September 5, 2025