ChatPaper.aiChatPaper

Aprendizaje en la Variedad: Desbloqueando Transformadores de Difusión Estándar con Codificadores de Representación

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

February 10, 2026
Autores: Amandeep Kumar, Vishal M. Patel
cs.AI

Resumen

El aprovechamiento de codificadores de representación para el modelado generativo ofrece un camino para una síntesis eficiente y de alta fidelidad. Sin embargo, los transformadores de difusión estándar no logran converger directamente sobre estas representaciones. Mientras que trabajos recientes atribuyen esto a un cuello de botella de capacidad, proponiendo un escalado de ancho computacionalmente costoso para los transformadores de difusión, nosotros demostramos que el fallo es fundamentalmente geométrico. Identificamos la Interferencia Geométrica como la causa principal: el modelo de flujo euclidiano estándar fuerza a las trayectorias de probabilidad a atravesar el interior de baja densidad del espacio de características hipersférico de los codificadores de representación, en lugar de seguir la superficie de la variedad. Para resolver esto, proponemos el Modelo de Flujo Riemanniano con Regularización de Jacobi (RJF, por sus siglas en inglés). Al restringir el proceso generativo a las geodésicas de la variedad y corregir la propagación de errores inducida por la curvatura, RJF permite que las arquitecturas estándar de Transformadores de Difusión converjan sin escalado de ancho. Nuestro método RJF permite que la arquitectura estándar DiT-B (131M parámetros) converja efectivamente, logrando un FID de 3.37 donde los métodos anteriores fallan en converger. Código: https://github.com/amandpkr/RJF
English
Leveraging representation encoders for generative modeling offers a path for efficient, high-fidelity synthesis. However, standard diffusion transformers fail to converge on these representations directly. While recent work attributes this to a capacity bottleneck proposing computationally expensive width scaling of diffusion transformers we demonstrate that the failure is fundamentally geometric. We identify Geometric Interference as the root cause: standard Euclidean flow matching forces probability paths through the low-density interior of the hyperspherical feature space of representation encoders, rather than following the manifold surface. To resolve this, we propose Riemannian Flow Matching with Jacobi Regularization (RJF). By constraining the generative process to the manifold geodesics and correcting for curvature-induced error propagation, RJF enables standard Diffusion Transformer architectures to converge without width scaling. Our method RJF enables the standard DiT-B architecture (131M parameters) to converge effectively, achieving an FID of 3.37 where prior methods fail to converge. Code: https://github.com/amandpkr/RJF
PDF11February 12, 2026