Согласование латентной геометрии для сферического согласования потоков в генерации изображений

Аннотация

Латентное согласование потоков для генерации изображений обычно переносит гауссов шум в латентные представления вариационного автокодировщика вдоль линейных траекторий. Однако обе конечные точки сконцентрированы в тонких сферических оболочках, и евклидова хорда покидает эти оболочки даже при предварительной обработке, выравнивающей их радиусы. Разложив каждый латентный токен на радиальную и угловую компоненты, мы с помощью зондов замены компонентов показываем, что декодированное перцептивное и семантическое содержание переносится преимущественно направлением, а радиус вносит гораздо меньший вклад. Поэтому мы проецируем латентные данные на фиксированный радиус токена, используем радиальную проекцию гауссова шума в качестве сферического априорного распределения, дообучаем декодер при замороженном энкодере и заменяем линейную интерполяцию сферической линейной интерполяцией. Полученные геодезические траектории остаются на сфере на каждом временном шаге, а их целевые скорости по построению являются чисто угловыми. В условиях одинакового обучения данный метод последовательно улучшает класс-условный показатель FID на ImageNet-256 для различных токенизаторов изображений, не изменяет архитектуру диффузионной модели и не требует ни вспомогательного энкодера, ни цели выравнивания представлений.

English

Latent flow matching for image generation usually transports Gaussian noise to variational autoencoder latents along linear paths. Both endpoints, however, concentrate in thin spherical shells, and a Euclidean chord leaves those shells even when preprocessing aligns their radii. By decomposing each latent token into radial and angular components, we show through component-swap probes that decoded perceptual and semantic content is carried predominantly by direction, with radius contributing much less. We therefore project data latents onto a fixed token radius, use the radial projection of Gaussian noise as the spherical prior, finetune the decoder with the encoder frozen, and replace linear interpolation with spherical linear interpolation. The resulting geodesic paths stay on the sphere at every timestep, and their velocity targets are purely angular by construction. Under matched training, the method consistently improves class-conditional ImageNet-256 FID across different image tokenizers, leaves the diffusion architecture unchanged, and requires no auxiliary encoder or representation-alignment objective.