Calibri: Mejora de Transformadores de Difusión mediante Calibración Eficiente en Parámetros
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
March 25, 2026
Autores: Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Resumen
En este artículo, descubrimos el potencial oculto de los Transformadores de Difusión (DiTs) para mejorar significativamente las tareas generativas. Mediante un análisis en profundidad del proceso de eliminación de ruido, demostramos que la introducción de un único parámetro de escala aprendido puede mejorar notablemente el rendimiento de los bloques DiT. Basándonos en esta idea, proponemos Calibri, un enfoque eficiente en parámetros que calibra óptimamente los componentes de los DiT para elevar la calidad generativa. Calibri plantea la calibración de los DiT como un problema de optimización de recompensa de caja negra, que se resuelve eficientemente mediante un algoritmo evolutivo y modifica solo unos ~100 parámetros. Los resultados experimentales revelan que, a pesar de su diseño ligero, Calibri mejora consistentemente el rendimiento en diversos modelos de texto a imagen. Cabe destacar que Calibri también reduce los pasos de inferencia necesarios para la generación de imágenes, manteniendo siempre salidas de alta calidad.
English
In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.