DiffusionBench: Over de Holistische Evaluatie van Diffusion Transformers

Samenvatting

Onderzoek naar diffusietransformatoren (DiT) voor beeldgeneratie is geconvergeerd naar één enkele evaluatieopzet: klasse-afhankelijke generatie op ImageNet. Hoewel methoden de FID en aanverwante metrieken verbeteren, wordt steeds onduidelijker of deze verbeteringen daadwerkelijke vooruitgang in generatieve modellering weerspiegelen. Het natuurlijke alternatief, namelijk tekst-naar-beeld (T2I)-generatie, wordt vaak als te duur of onpraktisch beschouwd om te trainen en evalueren en wordt daarom vaak overgeslagen. Wij stellen dat deze perceptie niet langer houdbaar is. We introduceren NanoGen, een uniform trainings- en evaluatieframework voor DiT. NanoGen evenaart de state-of-the-art DiT-baselines op ImageNet en traint met slechts 12 regels configuratiewijzigingen ook concurrerende tekst-naar-beeld-modellen. Het ondersteunt momenteel RAE-, VAE-, pixelruimte- en MeanFlow-diffusiemethoden onder zowel ImageNet- als T2I-opstellingen. Met NanoGen vereist het trainen van T2I vergelijkbare rekenkracht als ImageNet. Na het trainen van 21 latente diffusiemodellen met NanoGen constateren we dat de rangschikking van methoden geen sterke correlatie vertoont tussen ImageNet- en T2I-generatie: de Pearson-correlatie ligt tussen -0,377 en -0,580 voor drie metrieken. Dit suggereert dat een methode die de klasse-afhankelijke ImageNet-FID verbetert, geen overeenkomstige verbetering op T2I hoeft te laten zien, wat duidelijk de noodzaak aantoont om DiT's op beide taken te evalueren. Hiertoe vatten we de resultaten van ImageNet en tekst-naar-beeld samen, wat leidt tot DiffusionBench, een holistische benchmark voor DiT-onderzoek. We bevelen aan om DiffusionBench te rapporteren in plaats van alleen ImageNet: methoden die DiffusionBench verbeteren, weerspiegelen waarschijnlijk bredere vooruitgang.

English

Diffusion transformer (DiT) research on image generation has converged to a single evaluation setup: class-conditional generation on ImageNet. While methods improve the FID and related metrics, it is increasingly unclear whether they reflect real progress in generative modeling. The natural alternative, i.e., text-to-image (T2I) generation, is perceived as too costly or inconvenient to train and evaluate and is often skipped. We argue that this perception no longer holds. We introduce NanoGen, a unified DiT training and evaluation framework. NanoGen matches state-of-the-art DiT baselines on ImageNet and, with 12 lines of configuration change, also trains competitive text-to-image models. It currently supports RAE, VAE, pixel-space, and MeanFlow diffusion methods under both ImageNet and T2I setups. Under NanoGen, training T2I requires comparable compute to ImageNet. After training 21 latent diffusion models with NanoGen, we observe that method ranking shows no strong correlation between ImageNet and T2I generation: Pearson correlation is between -0.377 and -0.580 across three metrics. This suggests that a method which improves class-conditional ImageNet FID may show no corresponding improvement on T2I, clearly indicating the necessity of evaluating DiTs on both tasks. To this end, we summarize ImageNet and text-to-image results, which yields DiffusionBench, a holistic benchmark for DiT research. We recommend reporting DiffusionBench in place of ImageNet alone: methods that improve DiffusionBench are more likely to reflect broader progress.