ChatPaper.aiChatPaper

Modelos de Transição: Repensando o Objetivo de Aprendizado Generativo

Transition Models: Rethinking the Generative Learning Objective

September 4, 2025
Autores: Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
cs.AI

Resumo

Um dilema fundamental na modelagem generativa persiste: modelos de difusão iterativa alcançam fidelidade excepcional, mas a um custo computacional significativo, enquanto alternativas eficientes com poucos passos são limitadas por um teto rígido de qualidade. Esse conflito entre passos de geração e qualidade da saída surge de objetivos de treinamento restritivos que focam exclusivamente em dinâmicas infinitesimais (PF-ODEs) ou na predição direta do ponto final. Nós abordamos esse desafio introduzindo uma equação exata de dinâmica em tempo contínuo que define analiticamente transições de estado em qualquer intervalo de tempo finito. Isso leva a um novo paradigma generativo, os Modelos de Transição (TiM), que se adaptam a transições com passos arbitrários, percorrendo de forma contínua a trajetória generativa desde saltos únicos até refinamentos detalhados com mais passos. Apesar de ter apenas 865 milhões de parâmetros, o TiM alcança desempenho de ponta, superando modelos líderes como SD3.5 (8 bilhões de parâmetros) e FLUX.1 (12 bilhões de parâmetros) em todas as contagens de passos avaliadas. Importante destacar que, diferentemente de geradores anteriores com poucos passos, o TiM demonstra melhoria monotônica na qualidade à medida que o orçamento de amostragem aumenta. Além disso, ao empregar nossa estratégia de resolução nativa, o TiM oferece fidelidade excepcional em resoluções de até 4096x4096.
English
A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.
PDF283September 5, 2025