Aprendizado na Variedade: Desbloqueando Transformadores de Difusão Padrão com Codificadores de Representação

Resumo

A utilização de codificadores de representação para modelagem generativa oferece um caminho para síntese eficiente e de alta fidelidade. No entanto, os transformadores de difusão padrão não conseguem convergir diretamente nessas representações. Embora trabalhos recentes atribuam isso a um gargalo de capacidade, propondo o escalonamento computacionalmente caro da largura dos transformadores de difusão, demonstramos que a falha é fundamentalmente geométrica. Identificamos a Interferência Geométrica como a causa raiz: o fluxo euclidiano padrão força os caminhos de probabilidade através do interior de baixa densidade do espaço de características hipersféricas dos codificadores de representação, em vez de seguir a superfície da variedade. Para resolver isso, propomos o Emparelhamento de Fluxo Riemanniano com Regularização de Jacobi (RJF). Ao restringir o processo generativo às geodésicas da variedade e corrigir a propagação de erro induzida pela curvatura, o RJF permite que arquiteturas padrão de Transformadores de Difusão convirjam sem escalonamento de largura. Nosso método RJF permite que a arquitetura padrão DiT-B (131M de parâmetros) convirja efetivamente, alcançando um FID de 3.37, onde métodos anteriores falham em convergir. Código: https://github.com/amandpkr/RJF

English

Leveraging representation encoders for generative modeling offers a path for efficient, high-fidelity synthesis. However, standard diffusion transformers fail to converge on these representations directly. While recent work attributes this to a capacity bottleneck proposing computationally expensive width scaling of diffusion transformers we demonstrate that the failure is fundamentally geometric. We identify Geometric Interference as the root cause: standard Euclidean flow matching forces probability paths through the low-density interior of the hyperspherical feature space of representation encoders, rather than following the manifold surface. To resolve this, we propose Riemannian Flow Matching with Jacobi Regularization (RJF). By constraining the generative process to the manifold geodesics and correcting for curvature-induced error propagation, RJF enables standard Diffusion Transformer architectures to converge without width scaling. Our method RJF enables the standard DiT-B architecture (131M parameters) to converge effectively, achieving an FID of 3.37 where prior methods fail to converge. Code: https://github.com/amandpkr/RJF

Aprendizado na Variedade: Desbloqueando Transformadores de Difusão Padrão com Codificadores de Representação

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Resumo

Support