Calibri : Amélioration des Transformers de Diffusion par Calibration Paramétriquement Efficace
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
March 25, 2026
Auteurs: Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Résumé
Dans cet article, nous révélons le potentiel caché des Transformers de Diffusion (DiTs) pour améliorer significativement les tâches génératives. Grâce à une analyse approfondie du processus de débruitage, nous démontrons que l'introduction d'un unique paramètre d'échelle appris peut considérablement améliorer les performances des blocs DiT. En nous appuyant sur cette observation, nous proposons Calibri, une approche économe en paramètres qui calibre de manière optimale les composants des DiTs pour rehausser la qualité générative. Calibri formule l'étalonnage des DiTs comme un problème d'optimisation de récompense en boîte noire, résolu efficacement à l'aide d'un algorithme évolutionniste et ne modifiant qu'environ 100 paramètres. Les résultats expérimentaux montrent qu'en dépit de sa conception légère, Calibri améliore constamment les performances sur divers modèles texte-image. De manière notable, Calibri réduit également le nombre d'étapes d'inférence nécessaires à la génération d'images, tout en maintenant des sorties de haute qualité.
English
In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.