Calibri: Miglioramento dei Trasformatori a Diffusione tramite Calibrazione Efficiente in Parametri
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
March 25, 2026
Autori: Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Abstract
In questo articolo, sveliamo il potenziale nascosto dei Diffusion Transformer (DiT) per migliorare significativamente le attività generative. Attraverso un'analisi approfondita del processo di rimozione del rumore, dimostriamo che l'introduzione di un singolo parametro di scalatura appreso può migliorare notevolmente le prestazioni dei blocchi DiT. Sulla base di questa intuizione, proponiamo Calibri, un approccio efficiente in termini di parametri che calibra in modo ottimale i componenti dei DiT per elevare la qualità generativa. Calibri inquadra la calibrazione dei DiT come un problema di ottimizzazione di reward a scatola chiusa, che viene risolto efficientemente utilizzando un algoritmo evolutivo e modificando solo circa 100 parametri. I risultati sperimentali rivelano che, nonostante il suo design leggero, Calibri migliora costantemente le prestazioni su vari modelli text-to-image. È degno di nota come Calibri riduca anche i passi di inferenza necessari per la generazione di immagini, mantenendo al contempo output di alta qualità.
English
In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.