Alineación de la Geometría Latente para el Emparejamiento de Flujo Esférico en la Generación de Imágenes

Resumen

El emparejamiento de flujo latente para generación de imágenes normalmente transporta ruido gaussiano a latentes de autoencoders variacionales a lo largo de trayectorias lineales. Sin embargo, ambos extremos se concentran en capas esféricas delgadas, y una cuerda euclidiana abandona dichas capas incluso cuando el preprocesamiento alinea sus radios. Al descomponer cada token latente en componentes radial y angular, demostramos mediante sondeos de intercambio de componentes que el contenido perceptual y semántico decodificado está transportado predominantemente por la dirección, mientras que el radio contribuye mucho menos. Por lo tanto, proyectamos los latentes de datos sobre un radio de token fijo, utilizamos la proyección radial del ruido gaussiano como prior esférico, ajustamos finamente el decodificador con el codificador congelado, y reemplazamos la interpolación lineal por interpolación lineal esférica. Las trayectorias geodésicas resultantes permanecen sobre la esfera en cada paso temporal, y sus objetivos de velocidad son puramente angulares por construcción. Bajo entrenamiento equiparado, el método mejora consistentemente el FID condicionado por clase en ImageNet-256 a través de diferentes tokenizadores de imágenes, mantiene inalterada la arquitectura de difusión, y no requiere codificador auxiliar ni objetivo de alineación de representaciones.

English

Latent flow matching for image generation usually transports Gaussian noise to variational autoencoder latents along linear paths. Both endpoints, however, concentrate in thin spherical shells, and a Euclidean chord leaves those shells even when preprocessing aligns their radii. By decomposing each latent token into radial and angular components, we show through component-swap probes that decoded perceptual and semantic content is carried predominantly by direction, with radius contributing much less. We therefore project data latents onto a fixed token radius, use the radial projection of Gaussian noise as the spherical prior, finetune the decoder with the encoder frozen, and replace linear interpolation with spherical linear interpolation. The resulting geodesic paths stay on the sphere at every timestep, and their velocity targets are purely angular by construction. Under matched training, the method consistently improves class-conditional ImageNet-256 FID across different image tokenizers, leaves the diffusion architecture unchanged, and requires no auxiliary encoder or representation-alignment objective.