Alinea tu Tangente: Entrenamiento de Mejores Modelos de Consistencia mediante Tangentes Alineadas en la Variedad
Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents
October 1, 2025
Autores: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI
Resumen
Con los modelos de difusión y emparejamiento de flujo logrando un rendimiento de generación de última generación, el interés de la comunidad ahora se ha centrado en reducir el tiempo de inferencia sin sacrificar la calidad de las muestras. Los Modelos de Consistencia (CMs, por sus siglas en inglés), que están entrenados para ser consistentes en trayectorias de difusión o ecuaciones diferenciales ordinarias de flujo de probabilidad (PF-ODE, por sus siglas en inglés), permiten muestreos de flujo o difusión en uno o dos pasos. Sin embargo, los CMs generalmente requieren un entrenamiento prolongado con tamaños de lote grandes para obtener una calidad de muestra competitiva. En este artículo, examinamos la dinámica de entrenamiento de los CMs cerca de la convergencia y descubrimos que las tangentes de los CMs —direcciones de actualización de la salida de los CMs— son bastante oscilatorias, en el sentido de que se mueven paralelas a la variedad de datos, no hacia la variedad. Para mitigar las tangentes oscilatorias, proponemos una nueva función de pérdida, llamada distancia de características de la variedad (MFD, por sus siglas en inglés), que proporciona tangentes alineadas con la variedad que apuntan hacia la variedad de datos. En consecuencia, nuestro método —denominado Alinea Tu Tangente (AYT, por sus siglas en inglés)— puede acelerar el entrenamiento de los CMs en órdenes de magnitud e incluso superar la métrica de similitud de parches de imagen perceptual aprendida (LPIPS, por sus siglas en inglés). Además, encontramos que nuestra función de pérdida permite el entrenamiento con tamaños de lote extremadamente pequeños sin comprometer la calidad de las muestras. Código: https://github.com/1202kbs/AYT.
English
With diffusion and flow matching models achieving state-of-the-art generating
performance, the interest of the community now turned to reducing the inference
time without sacrificing sample quality. Consistency Models (CMs), which are
trained to be consistent on diffusion or probability flow ordinary differential
equation (PF-ODE) trajectories, enable one or two-step flow or diffusion
sampling. However, CMs typically require prolonged training with large batch
sizes to obtain competitive sample quality. In this paper, we examine the
training dynamics of CMs near convergence and discover that CM tangents -- CM
output update directions -- are quite oscillatory, in the sense that they move
parallel to the data manifold, not towards the manifold. To mitigate
oscillatory tangents, we propose a new loss function, called the manifold
feature distance (MFD), which provides manifold-aligned tangents that point
toward the data manifold. Consequently, our method -- dubbed Align Your Tangent
(AYT) -- can accelerate CM training by orders of magnitude and even out-perform
the learned perceptual image patch similarity metric (LPIPS). Furthermore, we
find that our loss enables training with extremely small batch sizes without
compromising sample quality. Code: https://github.com/1202kbs/AYT