Modelos de Escoamento Assimétrico

Resumo

Geração baseada em fluxo em espaços de alta dimensionalidade é difícil porque a predição de velocidades exige modelar ruído de alta dimensão, mesmo quando os dados possuem uma estrutura forte de posto baixo. Apresentamos a Modelagem de Fluxo Assimétrico (AsymFlow), uma parametrização de velocidades assimétrica em relação ao posto, que restringe a predição de ruído a um subespaço de posto baixo, enquanto mantém a predição dos dados em dimensão completa. A partir dessa predição assimétrica, o AsymFlow recupera analiticamente a velocidade em dimensão completa sem alterar a arquitetura da rede ou os procedimentos de treinamento/amostragem. No ImageNet 256×256, o AsymFlow alcança um FID líder de 1,57, superando por ampla margem modelos anteriores de difusão de pixels semelhantes a DiT/JiT. O AsymFlow também fornece a primeira rota para ajuste fino de modelos de fluxo latente pré-treinados em modelos no espaço de pixels: alinhar o subespaço de pixels de posto baixo ao espaço latente fornece uma inicialização contínua que preserva a semântica e a estrutura de alto nível do modelo latente, de modo que o ajuste fino melhora principalmente discrepâncias de baixo nível em vez de reaprender a geração de pixels. Mostramos que o modelo AsymFlow em espaço de pixels ajustado a partir do FLUX.2 klein 9B estabelece um novo estado da arte para geração de texto-para-imagem no espaço de pixels, superando sua base latente em HPSv3, DPG-Bench e GenEval, enquanto qualitativamente mostra realismo visual substancialmente melhorado.

English

Flow-based generation in high-dimensional spaces is difficult because velocity prediction requires modeling high-dimensional noise, even when data has strong low-rank structure. We present Asymmetric Flow Modeling (AsymFlow), a rank-asymmetric velocity parameterization that restricts noise prediction to a low-rank subspace while keeping data prediction full-dimensional. From this asymmetric prediction, AsymFlow analytically recovers the full-dimensional velocity without changing the network architecture or training/sampling procedures. On ImageNet 256times256, AsymFlow achieves a leading 1.57 FID, outperforming prior DiT/JiT-like pixel diffusion models by a large margin. AsymFlow also provides the first-ever route for finetuning pretrained latent flow models into pixel-space models: aligning the low-rank pixel subspace to the latent space gives a seamless initialization that preserves the latent model's high-level semantics and structure, so finetuning mainly improves low-level mismatches rather than relearning pixel generation. We show that the pixel AsymFlow model finetuned from FLUX.2 klein 9B establishes a new state of the art for pixel-space text-to-image generation, beating its latent base on HPSv3, DPG-Bench, and GenEval while qualitatively showing substantially improved visual realism.