Asymmetrische stromingsmodellen

Samenvatting

Op stromingsgebaseerde generatie in hoogdimensionale ruimten is moeilijk omdat snelheidspredictie het modelleren van hoogdimensionale ruis vereist, zelfs wanneer data een sterke laagrangstructuur heeft. Wij presenteren Asymmetrische Stromingsmodellering (AsymFlow), een rang-asymmetrische snelheidsparameterisatie die ruispredictie beperkt tot een deelruimte met lage rang, terwijl datapredictie volledig dimensionaal blijft. Op basis van deze asymmetrische predictie herstelt AsymFlow analytisch de volledige dimensionale snelheid zonder de netwerkarchitectuur of training-/sampleprocedures te wijzigen. Op ImageNet 256×256 behaalt AsymFlow een leidende FID van 1,57, waarmee het eerdere DiT/JiT-achtige pixel-diffusiemodellen met een ruime marge overtreft. AsymFlow biedt tevens de eerste route ooit om voorgetrainde latente stromingsmodellen te finetunen naar pixelruimtemodellen: door de pixeldeelruimte met lage rang af te stemmen op de latente ruimte ontstaat een naadloze initialisatie die de semantiek en structuur op hoog niveau van het latente model behoudt, zodat finetuning voornamelijk laagniveau-afwijkingen verbetert in plaats van pixelgeneratie opnieuw te leren. Wij tonen aan dat het pixel-AsymFlow-model, gefinetuned van FLUX.2 klein 9B, een nieuwe state-of-the-art vestigt voor tekst-naar-beeldgeneratie in pixelruimte, waarbij het zijn latente basis verslaat op HPSv3, DPG-Bench en GenEval, en kwalitatief aanzienlijk verbeterd visueel realisme laat zien.

English

Flow-based generation in high-dimensional spaces is difficult because velocity prediction requires modeling high-dimensional noise, even when data has strong low-rank structure. We present Asymmetric Flow Modeling (AsymFlow), a rank-asymmetric velocity parameterization that restricts noise prediction to a low-rank subspace while keeping data prediction full-dimensional. From this asymmetric prediction, AsymFlow analytically recovers the full-dimensional velocity without changing the network architecture or training/sampling procedures. On ImageNet 256times256, AsymFlow achieves a leading 1.57 FID, outperforming prior DiT/JiT-like pixel diffusion models by a large margin. AsymFlow also provides the first-ever route for finetuning pretrained latent flow models into pixel-space models: aligning the low-rank pixel subspace to the latent space gives a seamless initialization that preserves the latent model's high-level semantics and structure, so finetuning mainly improves low-level mismatches rather than relearning pixel generation. We show that the pixel AsymFlow model finetuned from FLUX.2 klein 9B establishes a new state of the art for pixel-space text-to-image generation, beating its latent base on HPSv3, DPG-Bench, and GenEval while qualitatively showing substantially improved visual realism.