Alinea tu Tangente: Entrenamiento de Mejores Modelos de Consistencia mediante Tangentes Alineadas en la Variedad

Resumen

Con los modelos de difusión y emparejamiento de flujo logrando un rendimiento de generación de última generación, el interés de la comunidad ahora se ha centrado en reducir el tiempo de inferencia sin sacrificar la calidad de las muestras. Los Modelos de Consistencia (CMs, por sus siglas en inglés), que están entrenados para ser consistentes en trayectorias de difusión o ecuaciones diferenciales ordinarias de flujo de probabilidad (PF-ODE, por sus siglas en inglés), permiten muestreos de flujo o difusión en uno o dos pasos. Sin embargo, los CMs generalmente requieren un entrenamiento prolongado con tamaños de lote grandes para obtener una calidad de muestra competitiva. En este artículo, examinamos la dinámica de entrenamiento de los CMs cerca de la convergencia y descubrimos que las tangentes de los CMs —direcciones de actualización de la salida de los CMs— son bastante oscilatorias, en el sentido de que se mueven paralelas a la variedad de datos, no hacia la variedad. Para mitigar las tangentes oscilatorias, proponemos una nueva función de pérdida, llamada distancia de características de la variedad (MFD, por sus siglas en inglés), que proporciona tangentes alineadas con la variedad que apuntan hacia la variedad de datos. En consecuencia, nuestro método —denominado Alinea Tu Tangente (AYT, por sus siglas en inglés)— puede acelerar el entrenamiento de los CMs en órdenes de magnitud e incluso superar la métrica de similitud de parches de imagen perceptual aprendida (LPIPS, por sus siglas en inglés). Además, encontramos que nuestra función de pérdida permite el entrenamiento con tamaños de lote extremadamente pequeños sin comprometer la calidad de las muestras. Código: https://github.com/1202kbs/AYT.

English

With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT

Alinea tu Tangente: Entrenamiento de Mejores Modelos de Consistencia mediante Tangentes Alineadas en la Variedad

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

Resumen

Support