Alinhe Sua Tangente: Treinando Modelos de Consistência Melhores por meio de Tangentes Alinhadas à Variedade

Resumo

Com os modelos de difusão e correspondência de fluxo alcançando desempenho de geração de última geração, o interesse da comunidade agora se voltou para reduzir o tempo de inferência sem sacrificar a qualidade das amostras. Os Modelos de Consistência (CMs), que são treinados para serem consistentes em trajetórias de equações diferenciais ordinárias de fluxo de probabilidade (PF-ODE) ou difusão, permitem amostragem de fluxo ou difusão em uma ou duas etapas. No entanto, os CMs geralmente exigem treinamento prolongado com grandes tamanhos de lote para obter qualidade competitiva nas amostras. Neste artigo, examinamos a dinâmica de treinamento dos CMs próximo à convergência e descobrimos que as tangentes dos CMs -- direções de atualização da saída dos CMs -- são bastante oscilatórias, no sentido de que se movem paralelamente à variedade de dados, e não em direção a ela. Para mitigar as tangentes oscilatórias, propomos uma nova função de perda, chamada distância de características da variedade (MFD), que fornece tangentes alinhadas à variedade que apontam para a variedade de dados. Consequentemente, nosso método -- denominado Alinhe Sua Tangente (AYT) -- pode acelerar o treinamento dos CMs em ordens de magnitude e até superar a métrica de similaridade de patches de imagem perceptual aprendida (LPIPS). Além disso, descobrimos que nossa função de perda permite o treinamento com tamanhos de lote extremamente pequenos sem comprometer a qualidade das amostras. Código: https://github.com/1202kbs/AYT

English

With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT

Alinhe Sua Tangente: Treinando Modelos de Consistência Melhores por meio de Tangentes Alinhadas à Variedade

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

Resumo

Support