ChatPaper.aiChatPaper

Modelli di Transizione: Ripensare l'Obiettivo di Apprendimento Generativo

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
Autori: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

Abstract

Un dilemma fondamentale nella modellazione generativa persiste: i modelli di diffusione iterativa raggiungono una fedeltà eccezionale, ma a un costo computazionale significativo, mentre alternative efficienti a pochi passi sono limitate da un tetto rigido di qualità. Questo conflitto tra passi di generazione e qualità dell'output deriva da obiettivi di addestramento restrittivi che si concentrano esclusivamente su dinamiche infinitesimali (PF-ODEs) o sulla previsione diretta del punto finale. Affrontiamo questa sfida introducendo un'equazione esatta della dinamica in tempo continuo che definisce analiticamente le transizioni di stato su qualsiasi intervallo di tempo finito. Ciò porta a un nuovo paradigma generativo, i Modelli di Transizione (TiM), che si adattano a transizioni con un numero arbitrario di passi, attraversando senza soluzione di continuità la traiettoria generativa da salti singoli a raffinamenti granulari con più passi. Nonostante abbia solo 865 milioni di parametri, TiM raggiunge prestazioni all'avanguardia, superando modelli leader come SD3.5 (8 miliardi di parametri) e FLUX.1 (12 miliardi di parametri) in tutte le valutazioni del numero di passi. È importante sottolineare che, a differenza dei precedenti generatori a pochi passi, TiM dimostra un miglioramento monotono della qualità all'aumentare del budget di campionamento. Inoltre, quando si utilizza la nostra strategia a risoluzione nativa, TiM offre una fedeltà eccezionale a risoluzioni fino a 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF283September 5, 2025